基于篇章修辞结构的多文档自动文摘系统的设计与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:luobo330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要能提供更有力的信息浓缩和筛选的加工工具。多文档自动文摘可以将多篇同一主题下的文章进行汇总和压缩,提供给人们全面、简洁的信息。实验室前课题组设计并实现了一个基于语义的单文档自动文摘系统。但是单文档自动文摘已经难以满足人们对获取大量准确信息的迫切需要。因此,本文设计并实现了一个多文档自动文摘系统,主要有以下几方面的成果:1.设计并实现了一个基于篇章修辞结构的多文档自动文摘系统,系统地描述了不同层面上文本单元之间的相互关系,并且提出了多文档的修辞结构框架。同时,本文将句子中特征词的权重、句子的句型、句子的位置等句子的多特征信息与多文档修辞结构相结合,从而共同来衡量句子的重要性。2.本文采用了一种混合聚类算法HCA,对多文档进行主题的划分。以段落为基本单位,混合聚类算法HCA是将K-Means算法与层次聚类算法相结合,从而有效地解决了多文档主题数目不能确定的难题。实验结果表明,混合聚类算法比单一的聚类算法对主题划分的准确度更高。3.由于多文档自动文摘是从同一话题下的多篇文章中抽取句子,因此,会有语句不连贯和信息冗余等缺点。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行了冗余处理和句子压缩,生成更易阅读的文摘。基于上述的工作,最后我们开发并实现了一个多文档自动文摘实验系统。从哈尔滨工业大学多文档语料库中选取了20篇不同话题的多文档文章,每个话题下有3至7篇不等的关于该话题的报道,在该系统上进行了测试。实验表明,该系统能够有效地抽取不同话题的多文档文摘,评测效果比较理想,并且本系统具有良好的可用性和可移植性。
其他文献
2006年1月至2008年1月,我院应用输尿管镜气压弹道碎石术治疗输尿管结石102例,疗效满意。报告如下。
2006年10月16日我科收治因青、链霉素过敏导致重度剥脱性皮炎患者1例,经过80余天的精心治疗与护理,患者治愈出院,报告如下。
本文运用经典的证券投资组合理论和方法,结合中国证券市场发展的实际情况和证券投资基金运作的特点,探讨了自1999年以来运行于中国证券基金市场的四只指数型基金(基金普丰、基
肺气肿及慢性阻塞性肺疾病(COPD)是危害人类健康的常见病,提高疾病的早期诊断率十分重要。CT功能成像对肺气肿的早期和定量诊断、形态和功能并重的评价,对病情和预后的评估,已成为
孕妇,23岁,怀孕26周。因发热、咽痛和全身肌肉酸痛7d,加重伴咳嗽、气促3d到我院就诊。入院查:体温38.0℃,血压105/64mmHg(1mmHg=0.133kPa),脉搏110次/min,
目的总结主动脉内球囊反搏(intraaottic balloon pump,IABP)治疗冠状动脉旁路移植术(coronary artery bypass grafting,CABG)后严重低心排出量综合征(low cardiac output syndrome,IC
树典型为集体化时期黄土高原水土保持所采取的工作方法。受治水传统的影响,党和政府为了根治黄河,十分重视黄土高原水土流失治理问题,树立了大批水土保持典型。这些典型,把政
1999年,美国学者Bar—Or等在生化标志物的研究中发现,不稳定型心绞痛和心肌梗死发作早期患者的血清白蛋白(human Serum albumin,HSA)氨基末端与外源性钴Co^2+结合能力下降,HSA转化为