基于篇章修辞结构的多文档自动文摘系统的设计与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户：luobo330

【摘要】

：

随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要

【作者】

：

兰希

【出处】

：

厦门大学

【发表日期】

：

2014年期

【关键词】

：

多文档自动文摘篇章修辞结构句子多特征主题聚类句子相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要能提供更有力的信息浓缩和筛选的加工工具。多文档自动文摘可以将多篇同一主题下的文章进行汇总和压缩,提供给人们全面、简洁的信息。实验室前课题组设计并实现了一个基于语义的单文档自动文摘系统。但是单文档自动文摘已经难以满足人们对获取大量准确信息的迫切需要。因此,本文设计并实现了一个多文档自动文摘系统,主要有以下几方面的成果：1.设计并实现了一个基于篇章修辞结构的多文档自动文摘系统,系统地描述了不同层面上文本单元之间的相互关系,并且提出了多文档的修辞结构框架。同时,本文将句子中特征词的权重、句子的句型、句子的位置等句子的多特征信息与多文档修辞结构相结合,从而共同来衡量句子的重要性。2.本文采用了一种混合聚类算法HCA,对多文档进行主题的划分。以段落为基本单位,混合聚类算法HCA是将K-Means算法与层次聚类算法相结合,从而有效地解决了多文档主题数目不能确定的难题。实验结果表明,混合聚类算法比单一的聚类算法对主题划分的准确度更高。3.由于多文档自动文摘是从同一话题下的多篇文章中抽取句子,因此,会有语句不连贯和信息冗余等缺点。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行了冗余处理和句子压缩,生成更易阅读的文摘。基于上述的工作,最后我们开发并实现了一个多文档自动文摘实验系统。从哈尔滨工业大学多文档语料库中选取了20篇不同话题的多文档文章,每个话题下有3至7篇不等的关于该话题的报道,在该系统上进行了测试。实验表明,该系统能够有效地抽取不同话题的多文档文摘,评测效果比较理想,并且本系统具有良好的可用性和可移植性。

其他文献

输尿管镜气压弹道碎石治疗输尿管结石102例

2006年1月至2008年1月,我院应用输尿管镜气压弹道碎石术治疗输尿管结石102例,疗效满意。报告如下。

期刊

输尿管结石输尿管镜气压弹道碎石并发症

重度剥脱性皮炎1例护理体会

2006年10月16日我科收治因青、链霉素过敏导致重度剥脱性皮炎患者1例，经过80余天的精心治疗与护理，患者治愈出院，报告如下。

期刊

剥脱性皮类护理

中国指数型基金单一指数模型初探

本文运用经典的证券投资组合理论和方法，结合中国证券市场发展的实际情况和证券投资基金运作的特点，探讨了自1999年以来运行于中国证券基金市场的四只指数型基金(基金普丰、基

学位