论文部分内容阅读
随着大数据时代的来临,海量信息充斥网络,面对如此复杂而庞大的数据,快速且准确地获得关键信息,变得尤为重要。在文本领域,每天都会有海量数据产生,比如网页新闻、论文文献、微博舆论等,鉴于人力物力的有限性,处理如此多的数据几乎是不可能的,而关键词则能有效地概括反映文章的主题思想,人们可以借助文本的关键词快速了解文本内容,获取到关键信息。关键词是表达一篇文档核心内容的最小单元,在很多领域都扮演着很重要的角色,包括文档的自动摘要、网页信息抽取、文档的分类聚类、信息的检索等。然而传统的人工标注关键词耗时费力,所以需要设计出能够自动抽取关键词的算法。针对以上问题,本文进行了关键词抽取算法的研究,引入主题的概念,从主题角度进行关键词抽取。本文的主要工作如下:(1)首先对关键词抽取算法进行总体概述,根据关键词抽取方法的不同,分别从是否需要标注语料、抽取的关键词特征、抽取的文本语料的长度等角度,介绍了不同的关键词抽取方法。(2)由于传统的关键词抽取没有考虑到关键词与文章的主题关系,本文引入主题的概念,利用LDA主题模型,结合n-grams进行关键词抽取。从关键词的定义中可以得知,关键词要能最大程度的覆盖文章的主题,表达文章的主题思想。该方法通过将主题语义特征结合传统的统计特征,一定程度上能够较好地抽取出文章的关键词。(3)基于图和LDA主题模型的关键词抽取算法,利用TextRank图模型,直接将整个短语作为图的节点,迭代计算LDA主题得分,得到短语节点间的相关性,最终候选词的得分通过所从属的节点得分等信息计算得出,并选取前K个得分高的候选词作为文章的关键词。实验结果表明,该方法优于基本的关键词抽取算法,能够有效地抽取出文章的关键词。