论文部分内容阅读
随着因特网的快速普及和计算机各方面性能指数的不断提高,网络已经渗透到人类生活中的方方面面。网络迅速成为信息来源的主力军并且这些信息还在以指数级别在增长,挖掘出这些信息背后蕴藏的知识能够有效的帮助企业或者是个人做出最符合的实际的决策来实现利益最大化,因此互联网已经成为数据挖掘的主要应用领域。与此同时,人们通过网络接触到的信息绝大多数都是以文本的形式传递的,可以说,如何有效的处理文本是未来信息处理技术的一个关键性问题。这些年来,针对于文本的信息处理技术不断成熟,一些新的文本挖掘算法,文本特征提取算法或者是文本相似度计算方法被学者们不断提出,这些新思想的诞生不断完善了这一领域。但是,这些方法大都是笼统的并且是针对所有形式的文本来研究实现的,往往计算结果不尽如人意。实际上,不同形式的文本都有其特有的特点,也许一种算法在一种形式的文本上比较适合,但是在另一种形式的文本上适应性就比较差。针对目前文本处理算法存在的局限性,本文提出了基于二维特征集合的文本相似度计算方法。基于二维特征集合的文本相似度计算方法是在传统中文信息处理技术的基础上,通过提取文本词条的不同特征值,构建文本二维特征集合函数群,然后分析目前生活中人们经常接触到的文本的特点,根据这些文本各自具有的特点,构建文本风格库。最后针对不同类别文本的风格,以二维特征集合函数群为基础构造与之最为适合的特征选择函数进行文本间的相似度计算。本文首先研究了目前经典的文本特征提取算法和相似性计算模型,然后分析各个特征提取算法在文本相似度计算中的作用以及局限性。然后,本文对于文本风格这一文学范畴定义进行了数学量化定义,然后本文分析了主流文本他们各自具有的特点,构建了文本风格体系结构,然后针对不同风格文本具有的不同特点二维特征集合函数群为基础构建特征选择函数体系结构,这是本文研究的核心。同时,本文提出了ITC和段落分布熵两种新的特征选择方法,丰富了二维特征集合函数群。基于二维特征集合的文本相似度计算方法基本满足了中文信息处理技术的普适性要求,改变了传统文本相似性计算统一僵化的局面,使用户可以更加灵活的进行文本相似度计算的应用。因此,基于二维特征集合的文本相似度计算方法在中文信息处理领域具有重要的实际意义。