论文部分内容阅读
本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检索系统中的信息检索优化处理、信息检索接口的设计与实现。论文完成的主要工作如下:(1)完成了系统的总体架构设计以及网页去重、聚类优化、信息检索以及统计报表等功能模块的设计,完成了相关数据库的设计。(2)通过引入词语共现,改进了文本相似度的算法,实现了文本相似度的计算,并将其应用到了信息检索的优化处理中。(3)将重复网页分为完全重复网页和部分重复网页,并采用不同的算法进行判断,实现了信息检索中的网页去重功能。针对完全重复网页采用运行速度快的MD5校验码进行判重,而针对部分重复网页采用倒排索引计算相似度的方法实现了判重。(4)通过对基本的k-means算法进行改进,实现了文本聚类。通过聚类结果对信息检索结果进行了优化。实现了信息检索系统的用户接口,包括检索接口和统计报表接口,可向用户高效、直观地展示检索结果。本文通过计算文本相似度、网页去重和聚类优化实现了对信息检索的优化处理,然后通过检索接口和统计报表接口将结果呈现给用户,可以及时向用户提供质检舆情监控系统所采集到的相关内容,有助于政府相关部门对产品质量、食品安全方面的信息进行监督管理。