论文部分内容阅读
本文讨论了以HNC理论设计的关联概念节点为文本向量特征的基于共享最近邻算法的文本聚类方法,通过将词语映射到关联概念节点的方法达到为文本向量空间降维的目的。但实验显示,以关联概念节点为特征的方法尽管可以达到降低文本向量空间维度的目的,但有可能使文档的非零值特征数均值多于以词形为特征的方法,因此无法提高聚类速度。实验同时还显示,单纯以关联概念节点为特征的方法由于受到知识库规模的限制而使得大量信息无法利用,致使聚类结果不如以词形为特征的方法。