论文部分内容阅读
随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要能提供更有力的信息浓缩和筛选的加工工具。多文档自动文摘可以将多篇同一主题下的文章进行汇总和压缩,提供给人们全面、简洁的信息。实验室前课题组设计并实现了一个基于语义的单文档自动文摘系统。但是单文档自动文摘已经难以满足人们对获取大量准确信息的迫切需要。因此,本文设计并实现了一个多文档自动文摘系统,主要有以下几方面的成果:1.设计并实现了一个基于篇章修辞结构的多文档自动文摘系统,系统地描述了不同层面上文本单元之间的相互关系,并且提出了多文档的修辞结构框架。同时,本文将句子中特征词的权重、句子的句型、句子的位置等句子的多特征信息与多文档修辞结构相结合,从而共同来衡量句子的重要性。2.本文采用了一种混合聚类算法HCA,对多文档进行主题的划分。以段落为基本单位,混合聚类算法HCA是将K-Means算法与层次聚类算法相结合,从而有效地解决了多文档主题数目不能确定的难题。实验结果表明,混合聚类算法比单一的聚类算法对主题划分的准确度更高。3.由于多文档自动文摘是从同一话题下的多篇文章中抽取句子,因此,会有语句不连贯和信息冗余等缺点。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行了冗余处理和句子压缩,生成更易阅读的文摘。基于上述的工作,最后我们开发并实现了一个多文档自动文摘实验系统。从哈尔滨工业大学多文档语料库中选取了20篇不同话题的多文档文章,每个话题下有3至7篇不等的关于该话题的报道,在该系统上进行了测试。实验表明,该系统能够有效地抽取不同话题的多文档文摘,评测效果比较理想,并且本系统具有良好的可用性和可移植性。