论文部分内容阅读
在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检索,机器翻译,语音识别以及自然语言理解等相关领域都有广泛的应用。然而在词聚类算法的词聚类效果评价上,目前的词语聚类算法评价方法还存在着许多的不足。 目前,词语聚类算法的评价方法主要有人工评价和机器自动评价两种方法。人工评价费时费力,而且评价的结果往往存在很大的个人主观性,容易产生偏差;而机器评价主要是在空间向量模型和统计模型的基础上使用欧式距离或余弦角的方法来对词聚类结果进行评价,而没有从语义层次上考虑词语之间的语义关系,这导致评价结果的不理想。 本课题研究的目的在于在知网语义体系的基础上建立语义模型,并将基于此语义模型的词关联度计算方法引入到词语聚类算法的评价方法中,在语义层面上对得到的词聚类结果进行评价,分析它们的聚类效果,进而判断出各个词聚类算法的聚类效果的优劣性。 本文主要研究内容有以下几个方面: (1)本文采用了语义信息的量化模型,用词矢量来表示词语的语义信息。并且从语料库中选出高频的特征词作为待聚类词集合,并构造出待聚类词集的词矢量矩阵。 (2)分别使用基于SOM,K-means,Fuzzy-C-Means和ART2的四个词聚类算法对待聚类词集合进行自动聚类,得到四个不同的聚类结果。 (3)在知网的语义模型的基础上,将基于知网的词关联度计算方法引入到词聚类算法的聚类结果评价上,对得到的词聚类结果进行相对客观正确的评价。 (4)在基于知网的词聚类算法评价方法的原理上设计与实现词聚类算法的评价系统。 (5)对词聚类算法的评价结果进行分析和比较,验证本评价系统的有效性和准确性,并且判断出各词个聚类算法在词聚类效果上的优劣程度。