论文部分内容阅读
随着互联网的快速发展,人们已经越来越多的依靠互联网获取信息和资源,网络成为了人们生活中不可缺少的知识宝库。然而,由于网络中的资源太过丰富和庞大,为了使网络用户能够快速的找到对自己有用的信息,文本自动摘要技术应运而生。文本自动摘要技术利用计算机自动提取和生成文章的主题句,使用户能在最短的时间内掌握文章的主题思想,大大的减少了用户查找信息所用的时间,具有广泛的应用价值。近年来,文本自动摘要技术受到国内外学者们纷纷的的重视和研究,并且学者们也提出了很多优秀算法。本文结合数据挖掘、机器学习以及人工智能技术对文本自动摘要技术进行了深入研究,主要研究内容和工作如下:1)先前研究人员提出基于优化方法对文本进行自动摘要的研究,其思路主要是通过优化算法优化句子的特征属性权值,再根据权值计算每个句子的特征加权和。本文提出基于最优化问题的文本自动摘要算法,与前人的思路不同,主要体现在本文主要通过优化两个组合问题:摘要的特征权值和句子组合优化,算法的核心思想是:首先以摘要为单位,总结摘要的特征属性;接着利用遗传优化算法得到每个摘要特征属性的权值;最后再利用粒子群优化算法找出最优的句子组合即摘要。实验结果表明本文所提的算法在压缩率为20%和30%情况下,准确率、召回率和F-值分别达到0.4849、0.4843、0.4894和0.5998、0.8556、0.7052,可接受度分别达到0.75和0.8,其实验结果明显优于其他相关算法。2)本文从复杂网络的角度对文章句法特点进行分析与研究,发现句子与句子之间的复杂的关联度可以看作复杂网络的属性。与先前其他学者的研究思路不同,本文提出采用复杂网络的社团划分思想对文章进行主题划分,并给出五种不同的提取摘要的方法进行摘要的提取。在实验过程中,通过与先前学者的相关研究结果进行比较与分析,本文提出的算法在实验效果上更胜一筹,在压缩率为20%和30%的情况下,准确率、召回率和F-值分别达到0.5032、0.5365、0.5193和0.6503、0.8209、0.7257,可接受度分别达到0.8和0.85,在与其他相关算法比较来看,该算法在召回率上更有明显优势,这说明该算法提取的摘要更加全面的符合文章的主题。3)最后本文根据作者研究成果,开发了自动回帖系统,其中自动摘要技术是自动回帖系统中的核心技术,自动摘要的准确率越高,自动回帖系统越智能越有价值。