论文部分内容阅读
随着在线社交网络的快速发展,爆炸性增长的信息在社交网络用户中创建和传播。作为在线社交网络的代表,微博是一个基于用户关系的信息分享、传播以及获取平台。在微博中,用户可以自己创建消息或者转发其他用户的消息。转发是微博一个重要的信息传播机制,各种各样的信息通过转发在微博网络中进行广泛且迅速的传播。建模和预测微博转发过程不仅加深我们对信息传播机理的理解,而且有许多重要的实际应用,包括:病毒营销、媒体广告和热点提取等。 现有的研究主要基于显式或者隐式社交网络结构和抽取用户、内容、时间序列等特征构建预测模型。然而在实际场景中,社交网络结构很可能是高度变化的,此外,特征抽取代价高、难以处理并且不能保证特征的完全性。 本文提出一个新的基于用户表达学习的微博转发预测模型(IS-VM模型),它仅仅利用消息每个转发者的时间戳先后信息,通过热力学扩散过程来建模消息的转发过程并学习每个用户在连续欧式空间的表达,进而预测微博转发的动态过程。本文的用户表达学习模型(IS-VM模型)区别于现有的用户表达模型(CDK模型)的贡献有以下两点: (1)通过在连续的欧式空间中对每个用户建模两个空间坐标来分别建模社交网络用户影响力和易感性。CDK模型基于社交网络中信息传播是对称的强假设,每个用户在连续的欧式空间中只学习一个表达。 (2)正确预测转发用户列表中排在前边的用户是十分重要的,这是和搜索引擎返回的文档列表中排在前边文档的高准确性要求是相似的,本文通过建模用户表达空间临界惩罚间隔进而修改hinge损失函数来解决这个问题。在CDK模型中,不同位置用户对的临界惩罚间隔是固定常数1。 本文在Apache Spark上实现了IS-VM模型,并在实际新浪微博数据集上进行了广泛的测试。实验结果表明,在两个不同话题的数据集上,本文提出的IS-VM模型比CDK模型在预测性能上分别平均提高21%和34%,此外,IS-VM模型的收敛速度也有显著提高。