论文部分内容阅读
近年来随着垂直搜索引擎的出现和发展,一定程度上克服了传统搜索引擎的弱点。然而现在的垂直搜索引擎基本上还是基于单一关键字查询的方式,无法克服关键字查询方式带来的准确率和召回率低的问题。在农业领域里,垂直搜索引擎也存在同样的问题,在国家重大科技支撑项目子课题“基于本体的农业搜索引擎”(2006BAD10A0502)的支持下,本文针对农业搜索引擎构建了用户个性化平台。首先研究了个性化平台的重要基础之一,农业信息的的地理属性的添加,这是为实现个性化平台在构建索引文档时做的基础工作。文中的设计主要对农产品市场名称进行地理定位,采用了基于地理信息库索引的市场名地理定位、基于搜索引擎搜索结果项的市场名地理定位、基于搜索引擎搜索结果数量的市场名地理定位三种方法逐步提高对市场名称的地理定位能力。然后本文研究了用户搜索个性化平台的构建方法,从服务器日志中挖掘用户兴趣信息,并基于本体对用户兴趣词汇进行语义扩展,形成用户兴趣模型,当用户检索相关信息时,应用用户兴趣模型对用户提交的关键词进行扩展,然后将扩展后的关键词提交给检索系统,按照相似度排序输出结果,这是在信息检索时所采取的步骤,从而实现个性化服务平台。本文首先介绍了关于搜索引擎和本体论方面的一些基本知识,接着分析了网络上抓取的农产品市场名称的一些特征,根据市场名称特点构建了带有别名识别的多级地理信息库,然后基于构建的地理信息库索引对市场名进行地理定位;下一步分析了在互联网上市场名称和它所在的地名一起出现在搜索结果的同一网页中的可能性关系后,研究了一种基于搜索引擎搜索结果的市场名地理定位的方法;在上述方法无法定位时,基于皮尔逊卡方来评价市场名称和地名同时出现在一个网页上的关系,从而产生了基于搜索引擎搜索结果数量的市场名地理定位的方法。然后本文研究了用户兴趣库的的构建和更新方法,首先通过用户注册信息构建初始兴趣词库,然后通过挖掘服务器日志和计算兴趣词的响应系数,来维护和更新用户兴趣库;接着研究了根据用户访问文档的具体信息计算关键词用户兴趣度的方法;进一步系统通过将用户兴趣库中的词基于本体进行语义扩展构成用户兴趣模型,并且利用模型中词汇的兴趣度来维护和更新用户兴趣模型。接着分析了利用用户兴趣模型扩展用户提交的搜索关键词的方法,利用已经建立的用户兴趣模型给使用搜索引擎的用户提供个性化服务。最后对本文进行了总结,并指出了需要进一步研究的一些问题。