论文部分内容阅读
随着信息技术的不断发展,由海量文本信息造成的“信息过载”现象越发严重,如何在海量数据中高效的获取目标文本成为了目前信息检索领域的研究重点。基于内容的文本推荐系统是指从用户历史阅读文本信息中提取用户兴趣,然后以此为依据从文本库中将用户可能感兴趣的文本推荐给用户的一种个性化信息检索系统,相比于传统搜索引擎,该系统能够高效的满足用户对个性化信息的需求。但是目前常见的文本推荐算法仅考虑了特征词词形的严格匹配,未考虑语境对词形的影响以及不同词形之间的同义关系。针对该问题,本文研究并实现了基于词义相似度的文本推荐系统。本文的主要工作为:1.一般在向文本推荐引入同义关系时,弱同义词关系及多义词关系会在计算用户兴趣和文档特征相符程度过程中引入误差,降低推荐效果,鉴于此,本文借鉴链路预测思想,从网络结构特征的角度优化同义词网络,提出了基于链路预测的强同义词网络获取方法。2.在强同义词网络的基础上,本文结合最短路径、最优匹配算法,在文本推荐中引入强同义词关系,并应用词干提取技术消除不同语境对词形的影响,提出了基于强同义词网络的文本推荐算法。3.以基于强同义词网络的文本推荐算法为核心,应用IOCP通信模型、多客户端多服务器C/S架构、负载均衡等技术手段,本文设计并实现了基于词义相似度的文本推荐系统。本文首先研究了信息检索模型以及结构化表示文本的方法,结合应用需求选择了合适的信息检索模型与文档预处理技术;实现了基本的基于内容的推荐方法及系统;在此基础上探究了在文本推荐算法中引入同义词关系的途径,鉴于弱同义词关系以及多义词关系对推荐系统的影响,本文从网络结构特征的角度借鉴链路预测的思想提出了强同义词网络的获取方法;随后以基于内容的推荐算法为基础,提出了基于强同义词网络的文本推荐算法,通过仿真验证了其推荐效果的提升;最后以该算法为核心设计并实现了基于词义相似度的文本推荐系统。