中文Web文档自动摘要系统的研究

被引量 : 0次 | 上传用户:wef123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着Internet的普及,网络已成为一个巨大的信息源。如何在这海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。而自动文摘正是解决这一难题的有力工具之一。人们可以首先利用计算机对这大量文本信息进行处理,生成基本反映文章主题的摘要信息,然后通过浏览这些摘要信息来判断是否需要仔细阅读全文。这样将大大提高人们获取电子文本信息的效率。 文本摘要的研究和发展对科研和商业应用都是一个非常有价值的研究方向。目前,国外在这一方面的研究已取得了一定进展,但国内的研究起步较晚,对网页信息处理的系统较少,本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于web文档的自动摘要方法,并实际开发出一个web文档自动摘要系统。该系统可用于辅助检索,在领域上不受限制,摘要内容应满足完备性和概括性,并且具备一定的速度和可读性。 为此,本文在综合分析web页面的信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了web页面信息特征,提出了web页面文本块的抽取方法及一种适合于网页信息的小标题提取算法,探讨了语料库生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文web网页自动摘要系统模型,并对实际的网页进行了测试。 测试结果表明:绝大部分文档的摘要均能够满足完备性和概括性的要求,反映了文档的主要内容,这说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,受文章体裁的影响,部分摘要的可读性还有待提高。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。
其他文献
信息技术的飞速发展给我们带来了极大的便利,同时也给我们带来了很大的威胁。我们将越来越多的私人的和重要的信息存储于网络上,这样我们也就越来越依赖于网络。时下,对黑客
<正> 黄梅戏音乐电视连续剧《桃花扇》已经播出,观看过这部电视剧的人们,兴趣往往集中于《桃花扇》问世后几百年来不断被改编的问题上面来,我们想就有关的问题谈一些看法。
宪法的有效实施于法治是十分重要的。我国宪法的实施现状不容乐观 ,主要表现在 :(一 )宪法不能进入诉讼 ;(二 )宪法监督制度名不副实。究其原因 ,主要有三 :(一 )公民宪法意
清光绪二十二年(1896)在安庆怀宁,黄梅戏开始有了第一个职业班社。这个班社名叫"仁义社",是当时石牌镇上"一家杂货店小老板"创立的。他们大都是农民、生意人或手艺人,这也是
以2007-2009年年报披露研发投入的529家制造业上市公司为样本,构建多元回归分析模型,实证检验高管长期股权激励和短期报酬激励对研发投入的影响。研究结果表明:高管长期股权
改革开放以来,随着经济的快速发展、事业单位财务管理改革的发展,我国的事业单位财务管理制度也有进一步的发展和创新,但事业单位的财务管理体系依然存在很多待解决的问题。
通过分析新疆水土资源特点及存在问题,总结近年来新疆的水土保持与生态保护工作现状,提出新疆必须围绕内陆河区域的特点,通过多种技术和管理措施促进新疆水土保持及生态保护
21世纪的来临,使图书馆进入一个全新的数字化、网络化的新时期。由于不同的图书馆馆藏数字资源分布在不同的数据库中使得数据的组织、管理形式以及在不同来源数据库或文件中
信用风险是金融市场上的主要风险之一,信用风险的度量和管理历来是商业银行面临的重大课题。加入WTO后如何提高竞争力和信用风险管理水平是我国商业银行亟须解决的重要问题。