论文部分内容阅读
随着网络科技文献数目的日益庞大,现代科技文献的特点是产出成果多、速度快、知识容量大。人们希望查找的有关信息夹杂在浩瀚的无关信息中,即使是有关的信息也存在着无数次重复的阐述。因此,有效解决信息冗余,在科技文献中自动地发现新的相关信息,这是亟待解决的研究课题。
本论文对有关文本新信息探测所涉及的相关理论和方法进行了全面分析总结,这些问题包括:文本的表示,文本之间相关性、新颖性判断的理论和方法,现有的支持文本新颖性探测的相关理论和工具。根据科技文献的特点,就当前研究方法中存在的问题、不足,提出了基于分类的层叠探测模型,本论文的研究工作主要包括以下几个方面:
(1)针对科技文献的特点,结合当前已有领域词汇不足的现状,提出了利用作者给定关键词来充实领域词汇的方法。首先利用n-gram算法在作者给定的关键词中提取领域核心词,利用提取的领域核心词和《知网》对关键词进行相似度判断,将计算后认为是表达同一意义的同义词进行合并;最后得到没有冗余的新的领域词表,利用这个词表来充实已有的领域词表。
(2)针对文献自身的特点,在进行文献相关性探测时,将文献表示为文献标题、所刊的刊名和作者给定关键词的加权向量,设计和实现了科技文献中句子级新信息探测的文献表示模型以及文献与领域相关性判断。
(3)分析了文献中各种组成成份与新颖性探测的关系和作用的基础上,提出一系列用于科技文献中句子级新信息探测的指标体系。根据科技文献中包含有新信息的句子特点,提出了多维的句子表示模型。利用相似度来度量句子的新颖度,提出层叠新颖度量方法。根据摘要的要素将每个句子归到合适的类别,设计和实现了基于分类的层叠探测模型。
利用本文提出的句子级新信息探测方法,从CNKI文献数据库中下载实验数据进行了实验分析和算法评估,实验分为两组,一组进行摘要内部细分类,另一组不进行摘要内部细分类。每一组在进行句子新颖度计算时,分为三种计算方式,分别为层叠计算、加权计算和单一向量计算。实验证明本论文提出的基于分类的层叠探测方法能更好地对文献的新颖性探测提供支持。