论文部分内容阅读
互联网的飞速发展促进了基于互联网的信息获取与共享,网民的活跃使得互联网中存储的数据量呈爆炸式增长,人类社会进入了信息爆炸的时代。微博作为网络社交平台的典型代表,因信息发布的便捷性、内容形式的多样性以及信息覆盖领域的全面性吸引了大量的用户在其平台上创建并发布信息。用户在其平台上享有海量信息资源的同时也面临信息爆炸带来的诸多问题,如用户不能及时获取自己感兴趣的微博信息和大量有价值的微博信息不能得以有效利用等。个性化推荐基于用户兴趣挖掘有针对性的为用户推荐信息,是解决上述问题的有效方法。因此,本文主要围绕个性化微博信息推荐中的用户兴趣挖掘及评分推荐问题进行相关研究,主要研究成果如下:(1)针对直接利用LDA模型构建微博用户兴趣模型时存在微博文本长度较短、语义信息缺乏影响主题建模效果,以及不能反映用户兴趣随时间变化等问题。提出了基于文本聚类与兴趣衰减的微博用户兴趣挖掘算法(TCID-MUIM),利用TCID-MUIM算法中的同义词合并策略、二次Single-pass不完全聚类算法解决了文本长度较短、语义信息缺乏等问题;采用TCID-MUIM算法中的基于时间因子的主题矩阵压缩方法解决了用户兴趣随时间变化的问题。(2)针对现有推荐方法大多通过计算主题建模后获取的主题概率分布间的相似度作为推荐评分,评分时没有考虑到微博质量、新鲜度等特征,以及没有利用主题建模后获取的词汇概率分布等问题。提出了基于用户兴趣主题的多角度个性化微博推荐算法MAMScore用以对微博进行评分,根据评分大小排序并筛选出用户最可能感兴趣的Top-N微博推荐集,以此兼顾用户兴趣的同时为用户推荐质量、新鲜度高的微博信息。本文利用从新浪微博平台爬取的真实微博数据集进行了实验分析。实验结果表明,相较于传统建模方法以及微博用户兴趣建模领域常用的合并用户所有历史微博文本为同一文档用于建模的方法,本文提出的TCID-MUIM算法挖掘的用户兴趣主题具有更好的主题区分度,更贴合用户的真实兴趣偏好。基于用户兴趣主题模型,相较于直接通过余弦相似性度量或JS距离测度的方法进行推荐评分,本文提出的MAMScore算法推荐准确度更高。