论文部分内容阅读
随着信息技术的迅速发展,各类信息呈现出爆炸式增长,而文本数据依旧是最主要、最直接的信息载体,如何从海量文本信息中快速有效地提取有价值的信息,已成为信息处理领域的重要课题,并使得信息检索、信息过滤等技术被深入研究和广泛应用。作为它们的基础工作,文本相似度计算特别是中文文本相似度计算具有重要的研究意义。
本课题就带罚分因子的中文文本相似度计算展开了研究,在改进现有的特殊标识符分词算法的基础上,提出了一种带罚分因子的中文文本相似度计算方法。算法将基于统计方法的高效性和基于语义方法的准确性相结合,借助向量空间模型的建模思想进行建模,然后以语义因素为切入点,考虑到中文文本在相似度的计算过程中词序、近义词等因素所带来的影响,提出了罚分因子的概念,并在相似度的计算过程中对近义词进行一定处理,得到了一种面向句子的文本相似度计算方法。
论文首先改进了基于特殊标识符的分词算法,利用沙普利值模型对分词结果进行优化。过程可分为两大步:第一步根据非汉字类和汉字类的特殊标识符对文本进行分词,此过程中借助了二字词语分词的思想,对非特殊标识符的文本部分进行二字词语分词;第二步是利用沙普利值模型对分词结果进行优化,优化过程主要解决了某些汉字类的特殊标识符将一个完整的词切分成了几部分和某些固定的三字词或者四字词在二字词语的切分过程中被切开的问题,得到了更为准确的分词结果。
对文本进行分词预处理后,可以以句子为单位建立词语向量,然后建立距离矩阵模型,计算出句子的罚分因子,并带入相似度计算公式,得出句级别的中文文本相似度。当处理完文本的所有句子之后,将句级别的相似度扩展到整个文本,从而可以得出文本相似度。计算过程中,考虑到近义词对相似度计算的影响,通过查询近义词词典,将近义词作为相同词语进行处理,以得到更加理想的文本相似度计算结果。
论文最后,通过算例对不同的相似度计算方法进行了比较,说明带罚分因子的相似度计算方法在相似度计算准确性方面有了一定的提高。
本课题就带罚分因子的中文文本相似度计算展开了研究,在改进现有的特殊标识符分词算法的基础上,提出了一种带罚分因子的中文文本相似度计算方法。算法将基于统计方法的高效性和基于语义方法的准确性相结合,借助向量空间模型的建模思想进行建模,然后以语义因素为切入点,考虑到中文文本在相似度的计算过程中词序、近义词等因素所带来的影响,提出了罚分因子的概念,并在相似度的计算过程中对近义词进行一定处理,得到了一种面向句子的文本相似度计算方法。
论文首先改进了基于特殊标识符的分词算法,利用沙普利值模型对分词结果进行优化。过程可分为两大步:第一步根据非汉字类和汉字类的特殊标识符对文本进行分词,此过程中借助了二字词语分词的思想,对非特殊标识符的文本部分进行二字词语分词;第二步是利用沙普利值模型对分词结果进行优化,优化过程主要解决了某些汉字类的特殊标识符将一个完整的词切分成了几部分和某些固定的三字词或者四字词在二字词语的切分过程中被切开的问题,得到了更为准确的分词结果。
对文本进行分词预处理后,可以以句子为单位建立词语向量,然后建立距离矩阵模型,计算出句子的罚分因子,并带入相似度计算公式,得出句级别的中文文本相似度。当处理完文本的所有句子之后,将句级别的相似度扩展到整个文本,从而可以得出文本相似度。计算过程中,考虑到近义词对相似度计算的影响,通过查询近义词词典,将近义词作为相同词语进行处理,以得到更加理想的文本相似度计算结果。
论文最后,通过算例对不同的相似度计算方法进行了比较,说明带罚分因子的相似度计算方法在相似度计算准确性方面有了一定的提高。