论文部分内容阅读
目前,随着Internet的普及,网络已成为一个巨大的信息源。如何在这海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。而自动文摘正是解决这一难题的有力工具之一。人们可以首先利用计算机对这大量文本信息进行处理,生成基本反映文章主题的摘要信息,然后通过浏览这些摘要信息来判断是否需要仔细阅读全文。这样将大大提高人们获取电子文本信息的效率。 文本摘要的研究和发展对科研和商业应用都是一个非常有价值的研究方向。目前,国外在这一方面的研究已取得了一定进展,但国内的研究起步较晚,对网页信息处理的系统较少,本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于web文档的自动摘要方法,并实际开发出一个web文档自动摘要系统。该系统可用于辅助检索,在领域上不受限制,摘要内容应满足完备性和概括性,并且具备一定的速度和可读性。 为此,本文在综合分析web页面的信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了web页面信息特征,提出了web页面文本块的抽取方法及一种适合于网页信息的小标题提取算法,探讨了语料库生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文web网页自动摘要系统模型,并对实际的网页进行了测试。 测试结果表明:绝大部分文档的摘要均能够满足完备性和概括性的要求,反映了文档的主要内容,这说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,受文章体裁的影响,部分摘要的可读性还有待提高。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。