论文部分内容阅读
随着网络技术和计算机技术的飞速发展,网上的信息呈带宽的指数级增长。在这样一个信息量爆炸的社会中,人们希望通过网络获得大量信息,而搜索引擎就是在这样的背景下诞生与发展起来的。一般来讲,用户通过搜索引擎查询信息,虽然搜索引擎可以按照某种算法给出相关网页排序,但是有时并不能满足用户的查询请求。为了给用户提供满意的服务,从查询日志入手,分析用户的查询行为,提出了基于命名实体的网页推荐算法,给用户提供智能推荐,从而给出较好的推荐网页。本文从网络查询日志研究中发现,大量的查询中都或多或少的含有实体,这些实体分为传统命名实体和特殊命名实体。传统命名实体研究人名、地名和机构名;特殊命名实体研究与人类生活联系紧密的领域如TV、环境、经济、电影、医学、交通、IT和教育中具有特殊含义的实体。针对查询中和文档中的实体识别和类型识别,采用不同的方法,且对于查询中实体类型的识别采用三元组的概率形式。根据实体类型,相应地,对网页也进行了处理,将实体类型映射到网页类型,可以更好地提供网页推荐。本文提出了基于混合马尔科夫模型用于目录网页的导航链接和基于LDA特征选择的网页推荐算法用于主题网页推荐。根据当前用户的点击行为向其推荐8个以内的导航链接,这些推荐是根据含有同一实体的查询需求,在关键字匹配的情况下向用户推荐的,从而为用户减少了时间消耗和带宽消耗。因为一篇文档中存在很多主题,本文提出了基于LDA特征提取的网页推荐算法,通过采用LDA对文本建模,获得各个类别的子LDA模型,进而将文本分类,最后结合实体类型及查询词的匹配程度,向用户推荐网页链接。实验结果显示,基于混合马尔科夫模型的推荐算法,达到了比较满意的效果。基于LDA特征提取的网页推荐算法优于传统的推荐算法,很好地满足了用户的需求。