论文部分内容阅读
文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。在全文信息检索系统中,如何度量文本之间相似程度是决定系统性能的关键因素之一。在传统的方法中把文本表示成欧式空间中的向量,并采用文本向量之间的夹角余弦值表示文本相似度。 本文在分析总结前人研究成果的基础上提出了一种利用压缩原理计算中文文本之间相似度的方法以及与此对应的检索方法。在没有明确的关键字,只凭隐含的统计规律进行检索时,基于压缩原理的相似度计算方法表现出独有的优越性。与传统检索方法相比,本文提出的方法能够刻画隐含统计特征,处理方法简洁,是一种不依赖于关键词的方法。 在此基础上通过聚类与基于遗传算法的检索进行了全文检索实验。结果表明本文提出的方法具有合理性和有效性。