论文部分内容阅读
本文以数字图书馆中的文本数据为基础,研究用户个性化偏好模型,个性化信息获取、存储与管理以及相关的资源特征的提取、组织、维护等问题,研究个性化信息推荐技术和个性化检索技术.本文的主要研究成果包括如下六方面.首先,提出一种能够表达数字图书馆中复杂用户偏好的偏好模型.该模型把用户偏好与语义概念层次相结合,比原有的基于偏序关系的偏好模型具有更强的表达能力,能够表达数字图书馆中文本数据上的复杂用户偏好,具有很好的扩展性和自适应性.第二,提出基于新的偏好模型的用户偏好获取方法以及偏好信息的存储和索引技术.利用统计分析的方法获取用户对文本属性的偏好和文本内容的偏好,实验结果表明偏好挖掘算法是十分有效的.提出的混合存储策略在单机上的空间代价和操作代价都远远小于传统的关系存储模式.第三,提出了文本特征的提取方法以及特征信息的存储和索引技术.新的提取方法对PDF格式的文本进行特征提取,把基于规则和自动机的提取方法相结合,较好地解决了数字图书馆的数据预处理问题.针对数字图书馆中查询的特点,采用层次索引来组织文本的结构和内容信息,具有很好的并行性和压缩比,采用并行和压缩技术提高了查询效率.第四,提出两种个性化推荐算法.在基于兴趣度的个性化推荐算法中,把文本之间的相似性、文本的新颖性和信息量结合起来,提出用户对文本兴趣度的概念,理论分析和实验结果均证明算法能够真正返回用户感兴趣的文本,提高了推荐完全性和推荐准确性.在基于文献拓扑的个性化推荐算法中,提出文献拓扑图和相关子图的概念,把文献之间的拓扑结构应用于文献的推荐,不仅提高了算法的效率,而且能够全面、准确、清晰地给出与用户感兴趣的研究问题相关的文献.第五,在个性化检索方面,把语义概念层次与用户个性化关键字组相结合,形成带表达能力的概念层次,用来表达用户的内容偏好.实验结果表明,算法的查全率和查准率都高于传统的关键字检索和基于概念层次的个性化检索算法.提出检索结果的自动分类方法,为用户提供检索结果的分类信息,再根据用户对类别的选择传输文本,大大减少了网络传输量,提高了系统的效率.最后,基于上述基础研究成果,以基于机群并行计算环境的数字图书馆管理系统为平台,设计实现了一个支持个性化服务的数字图书馆系统原型.