论文部分内容阅读
互联网领域技术高速发展,产生了大量的网络数据,用户迫切需要以较快较准确的方法获取文本的核心信息,而搜索引擎给出的信息依然过多、过滥,用户很难通过搜索引擎快速准确地定位到所需的信息,由此推动了自动文本摘要技术的产生。自动文摘的本质是信息的抽象和减缩,它的研究已经延伸到各个领域,应用需求带动研究发展,自动摘要对满足人们快速获取信息的需求有重要作用,因此对它的研究有重大的应用价值。 首先,本文提出了一种结合LDA和谱聚类的多文档摘要方法,考虑了文本的重要性和主题重要性,主题模型LDA(潜在狄利克雷分布)为句子建模,通过发现文档的主题词确定文本重要性,谱聚类确定主题重要性,两者结合提高摘要质量。在此基础上提出了一种改进方法,SVD降维消除主题数目不定导致的噪音数据,结合图排序方法重新确定主题重要性,参数调节使摘要效果更好。通过ROUGE自动摘要评测工具包的评测,结果表明,后者在摘要评测结果上提高更多。 其次,本文提出了两种动态的摘要方法,两种方法针对不同的动态数据,前者同样由LDA建模,发现主题词,结合更新数据与旧数据的主题词,仿射传播聚类重新为句子选定合适主题数目,抽取数据集合并后的摘要。后者是实际的系统应用,效率更高,TF-ISF和向量空间模型为句子建模,累加相似度寻找新旧数据的差异性,从差异数据中提取摘要,系统界面显示此方法能很好的找到文本的中心思想。