论文部分内容阅读
随着互联网进入Web2.0时代,以Flickr、CiteULike等为代表的社会标注系统己逐渐成为新兴的知识共享平台。用户可以使用任意标签对自身创建或他人创建的网络资源(如图片、文献等)进行标注,还可以通过参加群组来与有类似兴趣的用户更好地分享相关资源。标签一方面代表了用户对资源的理解,反映了资源的内容;另一方面,多个用户标签的集合,也形成了对群组的高层语义描述。因此,标签成为联系用户与资源、用户与群组、资源与群组的桥梁。利用几类实体之间的关联关系,研究用户行为模式、资源组织方式,从而改善信息服务质量,成为相关研究面临的主要挑战。
社会标注系统对群组的支持增强了标注的社会化特性,然而,群组数量的迅速增长,却为用户参与其中带来困难,利用标签的桥梁作用,挖掘用户与群组之间的潜在关联,为用户推荐其感兴趣的潜在群组,能够加强用户间的信息交流,提高资源的利用率;标签和群组等信息为资源提供了多角度的描述,同时,语义相关的标签和内容相似的群组从不同的方面增强了用户对资源的认知,综合考虑这些信息,为新上传的资源同时提供标签和群组推荐,有利于其他用户对资源的发现,促进知识的共享和传播;目前,群组主要提供按照资源分享时间排序浏览资源的方式,这种浏览方式导致大量高质量的资源随着时间的流逝而被淹没,群组将标注聚合到一起,由此产生的标签共现关系为信息的组织和发现提供了基础,利用群组中大量用户对资源的标签挖掘资源的主题,并根据用户对资源的反馈信息排序主题内资源,提供面向主题的群组内资源浏览,能够帮助用户快速定位感兴趣主题高质量的资源;用户为资源添加标签的时间体现了用户在该时间点的兴趣,然而,用户的兴趣会随着时间的推移而发生变化,考虑用户的兴趣漂移,可以为用户提供符合其当前兴趣喜好的信息服务。本文的工作以图片标注系统Flickr和文献标注系统CiteULike为研究对象,针对上述几个问题,研究的主要内容如下:
1、提出了一种基于张量分解的群组推荐方法,用于集成以标签为桥梁的多维实体。该方法采用张量表征“用户-标签-群组”三者之间的交互关系,利用非负张量分解算法挖掘三类实体的共同主题空间,基于用户和群组在共同主题空间上的投影,计算它们的潜在关联,实现为用户推荐群组的服务。我们通过多组实验,对比当前流行的推荐方法,验证了模型的有效性,并深入分析了标签在群组推荐过程中的作用。
2、提出了一种基于实体问和实体内关联的标签和群组推荐方法,该方法通过抽取对资源进行标注的用户、描述资源内容的标签和资源所加入的群组之间的实体间关联,分析用户的好友、语义相关的标签、内容相似的群组的实体内关联,采用互增强学习挖掘各类实体与资源之间的潜在关联,实现为资源同时推荐标签和群组的功能,提高了用户参与标注的效率,有利于资源的发现和传播。
3、提出了一种两阶段面向主题的群组内资源浏览方法,方便用户定位和发现感兴趣主题高质量的资源。该方法第一阶段通过对标签共现关系的分析,使用标签作为描述资源的特征向量,构建“资源-标签”的矩阵空间表示,然后基于非负矩阵分解算法挖掘资源的主题。第二阶段针对每个主题,综合考虑资源的浏览次数、好评次数和分享时间建立主题内资源的影响力计算模型,实现对同主题资源的排序。
4、提出了一种基于用户兴趣漂移的资源推荐模型,为用户提供符合其当前兴趣喜好的资源。由于用户当前的标注比先前的标注对预测未来的兴趣更具影响力,我们使用指数衰减函数模拟用户标注兴趣的变化,并基于该函数生成用户对资源的评分数据,与传统二值评分相比,该评分数据能更准确的表达用户当前对资源的喜好程度。然后,利用生成的评分数据基于协同过滤的思想实现资源推荐。最后,我们构建了一个原型系统,通过该系统用户不仅可以看到自己或他人的历史标注行为以及标注随时间的变化情况,也可以通过可视化界面了解与自己当前兴趣相投的用户,并得到基于当前兴趣的实时推荐结果。