论文部分内容阅读
随着互联网上信息的迅速增长,人们对个性化服务的需求越来越高。海量的信息虽然给互联网上的用户带来了极大的方便,但是大量无用的信息淹没了用户感兴趣的内容,增加了用户获取有用信息的难度。在信息服务系统中,引入用户兴趣模型可以更好地为用户提供个性化服务,有效缓解信息过载问题,改善用户体验。传统的用户兴趣模型通过分析用户的浏览行为和访问内容,获取内容特征及用户的兴趣偏好,而很少考虑到用户当前所处的情景信息对用户偏好的影响。本文主要从用户的角度考虑,深入研究融入情景信息的用户历史浏览行为日志。通过提取用户所处的情景信息,并对情景信息进行分类,最终建立两种基于情景信息的用户兴趣模型。第一种基于情景的层次性向量空间模型(Hierarchical Vector Space Model based on Context,HVSM)是针对传统的向量空间模型的改进。该方法首先根据情景相似度划分用户的近似情景集,对“情景—用户—兴趣项”三维模型采用情景预过滤的方式降维处理;接着采用粗分类的方法,归纳用户浏览的网页得到用户兴趣类别;然后深入挖掘每种兴趣类别的页面内容,获取用户感兴趣的关键词及权重;最终建立基于情景的层次性向量空间模型。实验结果表明,基于情景的层次性向量空间模型将用户兴趣的预测误差控制在9%以内,并对传统的向量空间模型进行了优化。第二种基于情景的用户兴趣主题模型(User Topic Model based on Context,UTM)是针对主题模型的改进。在主题模型中引入情景这一变量,对用户情景和文本信息采用各自独立的隐变量进行表征,模型经过训练后,得到用户在不同情景下的主题特征向量及关键词序列。实验结果表明,引入情景信息后,可以得到对用户兴趣更精确的描述,同时降低了模型的困惑度。