基于用户表达学习的微博转发预测研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:eadead1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络的快速发展,爆炸性增长的信息在社交网络用户中创建和传播。作为在线社交网络的代表,微博是一个基于用户关系的信息分享、传播以及获取平台。在微博中,用户可以自己创建消息或者转发其他用户的消息。转发是微博一个重要的信息传播机制,各种各样的信息通过转发在微博网络中进行广泛且迅速的传播。建模和预测微博转发过程不仅加深我们对信息传播机理的理解,而且有许多重要的实际应用,包括:病毒营销、媒体广告和热点提取等。  现有的研究主要基于显式或者隐式社交网络结构和抽取用户、内容、时间序列等特征构建预测模型。然而在实际场景中,社交网络结构很可能是高度变化的,此外,特征抽取代价高、难以处理并且不能保证特征的完全性。  本文提出一个新的基于用户表达学习的微博转发预测模型(IS-VM模型),它仅仅利用消息每个转发者的时间戳先后信息,通过热力学扩散过程来建模消息的转发过程并学习每个用户在连续欧式空间的表达,进而预测微博转发的动态过程。本文的用户表达学习模型(IS-VM模型)区别于现有的用户表达模型(CDK模型)的贡献有以下两点:  (1)通过在连续的欧式空间中对每个用户建模两个空间坐标来分别建模社交网络用户影响力和易感性。CDK模型基于社交网络中信息传播是对称的强假设,每个用户在连续的欧式空间中只学习一个表达。  (2)正确预测转发用户列表中排在前边的用户是十分重要的,这是和搜索引擎返回的文档列表中排在前边文档的高准确性要求是相似的,本文通过建模用户表达空间临界惩罚间隔进而修改hinge损失函数来解决这个问题。在CDK模型中,不同位置用户对的临界惩罚间隔是固定常数1。  本文在Apache Spark上实现了IS-VM模型,并在实际新浪微博数据集上进行了广泛的测试。实验结果表明,在两个不同话题的数据集上,本文提出的IS-VM模型比CDK模型在预测性能上分别平均提高21%和34%,此外,IS-VM模型的收敛速度也有显著提高。
其他文献
近年来随着互联网视频规模的不断增大,为了加速视频在服务器的编解码速度,提升系统性能和服务质量,视频硬件加速技术不断发展。DPU-m是一款高通量多核视频加速芯片,主要用于服务
随着语音识别技术的不断进步,语音识别在人们的生活和工作中越来越普及。然而由于识别错误不可避免,为了得到正确的识别结果,越来越多的研究者将语音识别与人机交互进行结合,从而
随着互联网应用的飞速发展,信息安全问题变得日益突出。传统的信息安全系统主要是由防火墙、攻击检测等组成,主要是在资源共享的环境中,针对外围非法用户进行封堵,而对访问者源端
混合动力系统的高效运行依赖于各部件的匹配及控制策略,其优化模型具有不可微、多维、带约束、非线性等特点,是典型的多目标优化问题。当前针对混合动力系统多目标优化研究,采用
随着集成电路技术的发展,微处理器设计和验证的复杂度日益增长。模拟器定应对上述挑战的重要手段,模拟器可以针对微处理器进行不同粒度模拟,包括指令级模拟、微体系结构级模
在生物的基因组上除了有具有编码蛋白能力的基因之外,还具有大量不编码蛋白质的序列,而研究表明不具备编码能力的DNA序列也会产生相应的RNA转录产物。这些不具有编码蛋白质的能
随着经济全球化程度的不断加深,国际贸易的发展越来越迅速。海洋运输是实现国际贸易的最主要的途径之一。由于其具有价格低廉,运输效率高等诸多优势,目前三分之二以上的国际贸易
云计算正在走向社会化、集约化和专业化服务的道路。社会化是云计算发展的重要动力,集约化是国民经济可持续增长对云计算提出的基本要求,云计算通过提供各种专业化服务达到社
手语是聋人的第一语言这一观点,已经为人们所接受,然而当今社会中信息传播的主要方式是建立在有声语言之上的,给聋人接受信息造成极大困难。手语合成研究的主要目的就是通过提供
当前我国制造业正在向“绿色制造”、“柔性制造”发展转型,产业对伺服压力机的研究和应用越来越广泛。新型的伺服压力机相对传统压力机具有高精度、高柔性、低能耗、低噪声