主题模型在多文档摘要的应用研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:yuekinger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网领域技术高速发展,产生了大量的网络数据,用户迫切需要以较快较准确的方法获取文本的核心信息,而搜索引擎给出的信息依然过多、过滥,用户很难通过搜索引擎快速准确地定位到所需的信息,由此推动了自动文本摘要技术的产生。自动文摘的本质是信息的抽象和减缩,它的研究已经延伸到各个领域,应用需求带动研究发展,自动摘要对满足人们快速获取信息的需求有重要作用,因此对它的研究有重大的应用价值。  首先,本文提出了一种结合LDA和谱聚类的多文档摘要方法,考虑了文本的重要性和主题重要性,主题模型LDA(潜在狄利克雷分布)为句子建模,通过发现文档的主题词确定文本重要性,谱聚类确定主题重要性,两者结合提高摘要质量。在此基础上提出了一种改进方法,SVD降维消除主题数目不定导致的噪音数据,结合图排序方法重新确定主题重要性,参数调节使摘要效果更好。通过ROUGE自动摘要评测工具包的评测,结果表明,后者在摘要评测结果上提高更多。  其次,本文提出了两种动态的摘要方法,两种方法针对不同的动态数据,前者同样由LDA建模,发现主题词,结合更新数据与旧数据的主题词,仿射传播聚类重新为句子选定合适主题数目,抽取数据集合并后的摘要。后者是实际的系统应用,效率更高,TF-ISF和向量空间模型为句子建模,累加相似度寻找新旧数据的差异性,从差异数据中提取摘要,系统界面显示此方法能很好的找到文本的中心思想。
其他文献
随着虚拟现实技术以及语义Web技术的深入研究与广泛应用,融合语义的虚拟环境成为虚拟现实领域的一个新的研究方向。语义虚拟环境技术通过为虚拟场景添加计算机可以理解的并自
图像的局部不变特征具备在多种图像变换(如几何变换,光照变换等)下的不变性、低冗余性、无需预先对图像分割以及独特性等特点,已经被广泛用于图像匹配、物体识别、图像分类及
当前互联网已经发展到移动互联网时代,不仅仅只有传统的PC机可以浏览互联网,手机、平板电脑等各种移动设备也可以接入互联网,计算机的信息处理已经进入大数据时代。而这些大
随着网络技术的不断发展,分布式多媒体应用已经涉及人们生活的各个领域。多媒体同步是分布式多媒体系统的关键技术和基础,多媒体同步关系存在于多媒体的整个生命周期中。分布
人脸识别一直是生物识别领域的研究热点,在计算机、(应用)数学、电子、自动化、可视化、虚拟现实、图像处理与模式识别等学科都有较广泛的研究,同时也在航空航天、气象、刑事侦
程序语言课程是计算机及其相关专业非常重要的一门专业基础课,程序语言的教学显得尤为重要。随着互联网技术的迅速发展,信息化教育成为现代化新型教育模式,然而互联网带来便
随着图像传感器的发展,图像融合技术的应用也越来越广泛。同一光学传感器在对同一场景成像时,要使场景中的所有目标都聚焦清晰是很困难的,因此,如何将同一场景中的所有目标进行融
摘要:经济的快速增长、人们生活水平的提高、新医改步伐的推进以及人口老龄化趋势的加剧等众多因素促使人们对健康保健工作越来越重视。为了节约时间和成本,广大患者群体更加
在信息技术的快速发展下,越来越多的数据库(例如参数规范,统计和生命科学数据)通过互联网发布。侵犯版权已经成为网络系统和电子商业中最具破坏性的威胁之一。此外,在线分发的数据
随着计算机技术和网络技术的不断发展和广泛应用,网络教育问题备受重视,基于网络的学习方式获得了迅速的发展,一种新的教学系统——智能化网络教学系统正在蓬勃兴起。现有的教学