论文部分内容阅读
互联网技术的快速发展,使电子信息逐年爆炸式地增长,虽然搜索引擎技术的发展使人们可以快速地从网络上找到自己想要的信息,但随着网络信息的快速增多,人们花费在搜寻有用信息上的时间也越来越多了。在这种情况下,单纯的搜索引擎技术已经越来越难于满足人们迅速掌握有用信息的需求了。早在1958年,以Luhn发表的题为《The Automatic Creation of Literature Abstracts》的论文为起点,人们就开始了对自动摘要研究。文本摘要具有简洁,准确、清晰和高效的特点,而自动摘要不但具有文本摘要的特点,而且能够对海量信息进行快速处理,日渐成为人们快速掌握信息的有效手段。在自动文摘近半个世纪的发展历程中,人们在通用摘要方面取得了许多的研究成果。而依据用户需求生成相应摘要的偏重摘要技术,在最近几年才受到了国外许多学者的研究关注,由于偏重摘要不但易于对信息进行再处理,而且在信息检索、问答任务以及其它领域中都能发挥积极的作用,使其逐渐成为了自动文摘领域的研究重点。本文对自动摘要、通用摘要、偏重摘要等相关概念进行了较为深入的探讨。在回顾偏重摘要的研究状况之后,提出了基于关键词密度分布算法的偏重摘要系统的设计。该系统采用Visual C++6.0作为开发语言,SQL Server 2000作为数据库,可以根据用户的查询需要,生成三种不同压缩比率的自动摘要。在对偏重摘要的应用性研究中,分别设计了两类不同实验进行对比,检验了偏重摘要在信息检索和问答任务中的实用性和有效性。实验结果表明,偏重摘要能够满足用户的查询特定信息的要求,实验中抽取的结果文摘的平均正确率分别达到了72.5%和86.5%。最后,在参考有关文本摘要自动评测相关文献的基础上,融合当前的两类不同评测方法的优点,提出了一种基于混合策略的中文文摘自动评测方法,并通过两类不同的对比实验对该评测方法进行了检验和验证。实验结果完全符合我们的预期设想,从而验证了该评测方法的可行性。同时,实验也显示了基于关键词密度分布算法的自动摘要系统较之于基于语句相似度的自动摘要系统在结果文摘的质量上得到了一定的提高。