【摘 要】
:
随着互联网时代的到来,社交网络蓬勃发展,已成为当代社会信息传播的重要渠道和载体。在线社交网络中每天产生海量且流动的信息。然而信息流行度分布极其不均,绝大部分信息的流行度较低,只有极少数信息具有着较高的流行度。因而了解信息是如何传播的,以及什么样的因素驱动信息的传播,并对信息流行度进行预测成为了广大科研人员的关注热点。本文针对社交网络中的信息流行度预测问题展开实证研究,主要内容如下:对社交网络流行度
论文部分内容阅读
随着互联网时代的到来,社交网络蓬勃发展,已成为当代社会信息传播的重要渠道和载体。在线社交网络中每天产生海量且流动的信息。然而信息流行度分布极其不均,绝大部分信息的流行度较低,只有极少数信息具有着较高的流行度。因而了解信息是如何传播的,以及什么样的因素驱动信息的传播,并对信息流行度进行预测成为了广大科研人员的关注热点。本文针对社交网络中的信息流行度预测问题展开实证研究,主要内容如下:对社交网络流行度预测的方法展开综述。由于目前与信息流行度预测研究相关的综述类文献很少,通过对国内外文献资料的充分调研,本文对流行度预测的方法展开综述。首先对信息流行度问题基于三种不同层面进行划分:基于任务的不同,可以划分为分类问题和回归问题。根据信息在预测时是否发布可以划分为事前预测与事后预测。根据任务粒度的大小可以划分为微观预测和宏观预测。其次将当前主流的流行度预测方法划分为三类,分别是基于特征建模的方法,基于生成模型的方法以及基于深度学习的方法,其中基于特征建模的方法需要通过手动提取多种特征,输入到机器学习模型中进行预测,往往依赖于特定领域的知识,可扩展性欠佳。基于生成建模的方法虽具有高可解释性,然而其对于参数的假设比较简单,难以充分捕捉级联扩散的特征,预测效果欠佳。基于深度学习的方法可以能够自动学习信息传播中各种低级与高级特征表示,能够灵活捕捉级联中的序列依赖性,预测效果较高,且具有一定的通用性。因此本文选取基于深度学习的信息流行度预测方法进一步深入探究。当前基于深度学习的流行度预测方法常通过信息级联采样学习节点的拓扑信息,然而在采样过程中级联的拓扑结构信息存在一定的损失。因而本文为提升级联拓扑特征的刻画能力提出了两种基于深度学习的流行度预测方法。(1)提出一种基于VAE的信息流行度预测框架。VAE是一种深度生成模型,是由编码器和解码器组成的生成网络。事实上我们所观测到的转发过程会为未来的转发引入不确定性和噪声。考虑到级联传播的不确定性对于级联的流行度预测的重要性,通过VAE来学习级联的潜在特征,捕捉级联扩散的不确定性。主要思路如下:通过基于传播路径的方法进行序列采样,保留信息传播中的真实路径。通过GRU学习各个采样序列的时序特征表示,通过非参建模时间衰减效应作为权重系数,以序列中最后一个节点的转发时间对应时间间隔的时间衰减系数作为权重进行序列特征的加权聚合,得到级联的时序特征,通过VAE学习级联传播过程中的不确定性,得到对应的潜在特征,将时序特征与潜在特征结合进行流行度增量预测。(2)提出一种基于时空耦合的信息流行度预测框架。该框架采用基于传播路径的方法得到级联的序列,通过构建邻接矩阵保留级联中各节点的邻接信息,通过嵌入方式学习用户的特征表示,利用GRU捕捉序列中的时序依赖性,结合非参建模时间衰减效应,将其作为权重系数得到级联的时序特征表示。对于每个节点,将其所有邻居节点已融合时序信息的表示进行聚合学习其拓扑结构表示,引入多头注意力机制丰富对节点结构信息的刻画能力。进而将学习到的结构表示和时序表示相结合进行流行度增量预测。本文采用Sina Weibo数据集作为实验数据集来检验本文方法的预测效果。本文定义的流行度预测任务即通过观察给定时间窗口的转发路径,预测级联的最终转发数于观察时间转发数的增量。考虑到实验的完整性,本文选取两个主流的基于深度学习的方法作为基线模型,分别为Deep Cas和Deep Hawkes。设定T=1h,T=2h和T=3h三种时间窗口,选取对数转换均方误差作为预测结果优劣的度量指标,将上述两种基线模型于本文提出的两个模型进行实验对比。经对比发现,本文提出的两个方法相对于基线模型的预测误差有所降低,从而验证本文提出的两个模型有更好的预测效果。且针对于同一模型,随着观察时间增加,预测效果不断提升,这是由于观察时间越久,获取的级联特征更加丰富,因而预测效果往往更佳。
其他文献
随着互联网技术的飞速发展,互联网金融对于传统金融市场的冲击也越来越猛烈,传统金融机构在产品营销方面面临的压力也是与日俱增,如何进行个性化营销成了亟需解决的问题。目前针对个性化推荐,金融机构使用的模型方法还较为简单,较传统营销方式效果提升不明显,故本文基于金融业务,提出了一套推荐方法,该方法能够很好地捕捉到用户的真实喜好,从而做到个性化推荐。它通过利用用户的历史购买记录,生成金融理财产品的向量表示与
大数据时代,随着技术手段不断进步,海量数据不断涌现。分子生物信息学领域的微阵列数据,网络购物的用户行为和交易数据,信息化金融市场的交易数据等等,这些庞大的高维数据给传统分析的低维数据数据分析方法提出了挑战,也推动了多重假设检验理论的应用和发展。随着生活水平的提高,人类寿命不断延长,癌症已经成为危害人类健康的头号敌人。而多数癌症患者早期大多性状不明显,且同一类癌症往往性状表现也不尽相同,如何从分子水
随着长三角一体化发展上升为国家战略,党和国家对长三角区域产业协同发展提出了更高的要求,这对长三角三省一市而言既是一次难得的机遇,同时又面临着前所未有的挑战。长三角地区如何立足自身资源禀赋,形成区域产业分工协作、优势互补的发展格局,打造我国强劲活跃增长极,引领全国高质量发展,成为了一项极具现实意义的时代课题。鉴于此,本文尝试从区域间产业关联的视角,通过编制长三角地区间投入产出表,对长三角地区间的产业
疫情之下,全球金融市场进入大波动时代,各国金融调控政策、突发事件层出不穷,例如美联储无限量QE、欧央行7500亿复苏基金、中美关闭使领馆、阿塞拜疆和亚美尼亚爆发空战...如何智能监控全球舆情,从而最快速地做出反应、最大可能地规避风险,就成了一项特别重要的工作。自然语言处理技术作为一种新兴技术,在发展过程中,便于金融产生了联系。在《全球金融科技权威指南》一书中提到了Econob公司,这家做自然语言处
一个准确的电力负荷供应决策对于电力系统来说至关重要,而其中最为关键的就是对电力负荷的预测。而电力负荷日峰值的预测是其中一个重要指标。在目前的研究中,研究者们往往侧重于提高电力负荷整体的预测精度,而预测的稳健性一直被他们所忽视。在建立模型的过程中,我们往往会利用模型选择法来选择某一“最优”模型作为后续预测的模型,而人们却忽视了模型选择过程中的不确定性。模型平均则是用来解决以上问题的一个有效办法。它避
基于深度学习的、与年龄相关的人脸图像分析已经成为计算机视觉领域的一个重要研究内容,在众多深度神经网络模型中,生成对抗网络是最具魅力的模型之一,它强大的生成能力让我们可以完成许多有趣的事情,例如图像风格迁移、文本到图像的合成、图像超分辨率、人脸衰老图像生成、图像修复等。人脸图像衰老合成作为一个应用范围非常广泛的研究方向,包括追捕通缉犯、寻找走失儿童、自动升级职员数据库、提高人脸识别系统的鲁棒性以及科
近年来,随着全球性的经济发展以及世界各地区的经济增速和动能的衰弱,以及全球性的债务水平的升高以及金融市场的局部动乱等一系列问题的日益加剧,资本直接进行的投资活动也略显较为低迷。尤其是2020年新冠病毒疫情爆发以来,美国、欧洲和其它许多国家政府不尽如人意的处理,导致投资者对经济发展形势进一步看衰,全世界范围内的经济十分不稳定。在此背景下,黄金和许多其它虚拟货币的价格均出现了较大幅度的上涨,加剧了相关
线性双自回归模型(Linear double autoregressive(DAR)models,LDAR)可以用来很好地拟合厚尾数据,它的条件均值和条件标准差部分均采用了线性结构,其模型结构使其更加具有稳健性。目前,线性双自回归模型已有的估计方法是由Zhu et al.(2018)提出的双加权分位数回归估计(DWQRE),最优DWQRE估计量的渐近方差在特定的条件下可以达到CR下界,该估计量的渐
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使
命名实体识别是指识别出一段文本中具有人名、地名、专有名词等特定含义的实体。中文命名实体识别任务是自然语言领域的基础任务,是许多上游任务的基石,而医学文本是中文命名实体识别的一个非常重要的领域。本文就医学文本命名实体识别中存在的嵌套实体识别难的问题提出了一些有效的解决方案。对于命名实体识别,业界通常采用序列标注的方法来识别实体。对于非嵌套实体这样做是方便且有效的,但是对于嵌套实体而言,会出现一些问题