基于LDA模型的个性化微博信息推荐研究

来源 :贵州大学 | 被引量 : 4次 | 上传用户：ipgoalusb

【摘要】

：

互联网的飞速发展促进了基于互联网的信息获取与共享,网民的活跃使得互联网中存储的数据量呈爆炸式增长,人类社会进入了信息爆炸的时代。微博作为网络社交平台的典型代表,因

【作者】

：

孙玉洁

【出处】

：

贵州大学

【发表日期】

：

2017年01期

【关键词】

：

微博用户兴趣挖掘 LDA模型个性化推荐推荐算法 Top-N推荐

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的飞速发展促进了基于互联网的信息获取与共享,网民的活跃使得互联网中存储的数据量呈爆炸式增长,人类社会进入了信息爆炸的时代。微博作为网络社交平台的典型代表,因信息发布的便捷性、内容形式的多样性以及信息覆盖领域的全面性吸引了大量的用户在其平台上创建并发布信息。用户在其平台上享有海量信息资源的同时也面临信息爆炸带来的诸多问题,如用户不能及时获取自己感兴趣的微博信息和大量有价值的微博信息不能得以有效利用等。个性化推荐基于用户兴趣挖掘有针对性的为用户推荐信息,是解决上述问题的有效方法。因此,本文主要围绕个性化微博信息推荐中的用户兴趣挖掘及评分推荐问题进行相关研究,主要研究成果如下:(1)针对直接利用LDA模型构建微博用户兴趣模型时存在微博文本长度较短、语义信息缺乏影响主题建模效果,以及不能反映用户兴趣随时间变化等问题。提出了基于文本聚类与兴趣衰减的微博用户兴趣挖掘算法(TCID-MUIM),利用TCID-MUIM算法中的同义词合并策略、二次Single-pass不完全聚类算法解决了文本长度较短、语义信息缺乏等问题;采用TCID-MUIM算法中的基于时间因子的主题矩阵压缩方法解决了用户兴趣随时间变化的问题。(2)针对现有推荐方法大多通过计算主题建模后获取的主题概率分布间的相似度作为推荐评分,评分时没有考虑到微博质量、新鲜度等特征,以及没有利用主题建模后获取的词汇概率分布等问题。提出了基于用户兴趣主题的多角度个性化微博推荐算法MAMScore用以对微博进行评分,根据评分大小排序并筛选出用户最可能感兴趣的Top-N微博推荐集,以此兼顾用户兴趣的同时为用户推荐质量、新鲜度高的微博信息。本文利用从新浪微博平台爬取的真实微博数据集进行了实验分析。实验结果表明,相较于传统建模方法以及微博用户兴趣建模领域常用的合并用户所有历史微博文本为同一文档用于建模的方法,本文提出的TCID-MUIM算法挖掘的用户兴趣主题具有更好的主题区分度,更贴合用户的真实兴趣偏好。基于用户兴趣主题模型,相较于直接通过余弦相似性度量或JS距离测度的方法进行推荐评分,本文提出的MAMScore算法推荐准确度更高。

其他文献

惠民工程使乡村更宜居

记者从市乡村办获悉，2017年，在市乡村办统筹下，各成员单位在开展“产业富民”专项活动的同时，大力推进“基础便民”、“服务惠民”专项活动，老百姓切切实实地感受到了“三民”专项

报纸

落脚河水电站机组制动系统故障原因分析及处理

落脚河水电站投运2年多后,机组制动系统出现故障,即机组制动后不能复归撤除制动。经检查并分析,该故障主要原因在于机组制动压缩空气系统压缩空气中含水量过多造成制动活塞严

期刊

自动化系统水轮发电机组制动系统制动活塞锈蚀故障处理

思林水电站水轮发电机定子线圈嵌装

介绍了思林水电站262.5 MW发电机定子下线施工的工艺：设置环形下线平台,下线的同时可进行水轮机部件的安装,缩短了机组安装的直线工期;采用软玻璃搭设定子下线防尘棚,安装、拆

期刊

电气工程水轮发电机定子线圈嵌装施工工艺思林水电站

卧螺离心机的可靠性研究

卧螺离心机是一种具有处理量大、可连续操作、适应性强、单位产量耗能少等特点的,被广泛应用的高效的离心分离设备。随着现代工业发展对离心机性能要求的提高和设备的不断更

学位

卧螺离心机故障模式影响及危害性分析故障树分析可靠性预计可靠性分配

云龙湖水库沉水植物的恢复及净化效能原位围隔试验

在云龙湖水库设置围隔，地点选择在云龙湖水库西湖南岸避风处，离岸约10m，水深1m左右。选择四种来自云龙湖水库附近水域的本地沉水植物：马来眼子菜(Potamogeton malaianus Miq.)、

学位

云龙湖水库沉水植物生态恢复生物量净化效能围隔

基于LDA模型的个性化微博信息推荐研究

其他学术论文