论文部分内容阅读
网络技术的快速发展使得互联网对社会生活的影响越来越大,网民作为互联网上信息传播的主体,其行为模式对于互联网上信息的传播过程有着直接影响,用户对于话题的偏好是影响话题发展趋势的因素之一,分析用户对话题的偏好可以促进互联网话题发展趋势预测技术的发展。互联网信息的爆发性增长增加了网民在互联网上获取信息的难度,要提高网民互联网检索信息的效率,需要在信息索引的基础上,分析网民对于信息的偏好,根据其偏好为网民提供个性化的信息服务。本文结合了交叉学科的相关研究方法和思想,从用户行为模式的分析入手,分析互联网用户的偏好以及互联网信息的传播过程,建立了一个有效的互联网话题趋势预测模型;同时从用户偏好的角度出发,研究了互联网的信息推荐机制,为用户提供一种更加方便快捷的信息检索方式。论文的研究工作得到了国家自然科学基金资助项目(No.61172072)“在线社交网络舆论传播演化模式及热点预测方法研究”,国家自然科学基金项目“互联网用户偏好描述方法、形成机制与演化模式研究”(No.61271308),北京市自然科学基金资助项目(No.4112045)“网络社区舆论趋势预测与观点演化机制研究”,高等学校博士学科点专项科研基金(No.20100009110002)“个体交互与舆论引导对网络舆情传播影响的研究”项目的支持。论文的主要工作和创新点包括以下几个方面:1)以微博为例,分析了用户行为的统计特性,为用户偏好的分析以及话题演化趋势的预测奠定基础。用户传播信息的能力可以通过用户关注者的数量(传播的广度)、用户状态的回复和转发数量(信息的重要程度)以及用户状态回复中的关注者的比例(传播的深度)等表现出来;随着用户发表状态数量的不断增多,新发表的状态中所包含新词语的比例不断减少,用户所使用的词语大部分包含在了一个相对稳定的习惯词语集合中,而好友用户之间习惯词语集合的交集比随机选择用户的交集大得多,使用习惯词语集合的交集数量就可以大体上表现两个用户之间的相似程度;微博中话题生成的时间序列与滞后周期为1的时间序列之间具有比较显著的相关关系,利用时间序列前后之间的相关性可以预测话题的发展趋势。2)分析了微博用户对于内容的偏好,用户偏好是话题发展趋势的影响因素之一,也是微博推荐系统的重要因素,分析用户偏好能够促进以上两个问题的研究。用户对于内容的偏好通过内容之间的相似度表现出来,而内容之间相似度则是通过内容包含的词语集合计算得到的。分别分析了用户之间的相似度,话题之间的相似度以及话题和状态之间的相似度,用来表示用户对其他用户、话题和状态的偏好程度,并且定义了用户对于新的用户、话题以及状态的偏好判定流程,判断一个用户对这些对象是否存在偏好,判定的结果可以用于推荐模型和话题趋势预测模型。3)提出了一种改进的基于对象固有属性相似度的推荐算法,并结合用户的偏好将算法应用于微博系统的推荐。改进算法以协同过滤算法为基础,利用对象固有属性的相似程度,改进初始评分和用户相似度的计算过程,使得不同对象有着不一样的初始评分、两个用户之间针对不同对象的相似度也不同,改进的算法在一定程度上解决了数据稀疏性带来的推荐准确率较低的问题,相较于经典的算法准确率有了提高。微博推荐系统结合了用户的偏好、话题之间的相似度、状态之间的相似度,在微博系统中具有良好的推荐效果。4)提出了一种互联网话题趋势预测算法,并根据用户对于内容的偏好对微博话题的预测进行了改进。根据话题时间序列前后之间的相关性,借鉴经济学中的ARIMA模型,对话题在未来一段时间内的发展趋势进行了预测,实验结果表明,这个模型能够有效地预测互联网中不同类型媒体中的话题趋势。通过对微博话题的分析表明,用户对于内容的偏好能够影响话题传播过程,偏好用户的状态对于话题传播过程的促进作用要强于非偏好用户的状态。根据这个特性,提出了一种新的时间序列生成方法,在生成时间序列的过程中,根据用户对于话题的偏好,对用户发表状态的回复赋予不同的权值,以表征其对话题传播过程的影响能力。实验结果表明,采用新时间序列的预测模型,其预测的误差水平要小于使用原时间序列的模型,新时间序列能够更好地表现话题的发展趋势,更适合用来对微博话题进行趋势预测。