社交媒体热点检测与追踪技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:uan998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体与现实生活的联系日益密切,越来越多的网民选择通过社交网络获取新闻和发布消息。这些用户产生的海量社交媒体信息中包含大量热门话题和热点事件相关的信息,信息过载问题给人们使用这些信息带来了挑战。如何从海量社交媒体数据中自动发现和追踪热点事件和热门话题已成为一个重要的研究问题。一方面,社交媒体数据的短小、高噪、实时等特点给传统热点发现与追踪方法带来了挑战。另一方面,社交媒体数据中包含的地理、时间、社交关系等方面的丰富信息也为相关研究带来了便利条件。本文主要基于社交媒体数据的这些特点,对社交媒体中的热点发现、抽取和追踪等问题进行了深入研究。本文的具体研究工作包括:(1)转发行为的时空模式分析。社交行为模式决定着社交网络的结构及信息传播模式,而转发行为是社交媒体中最重要的社交行为之一。本文通过对Twitter数据的分析,研究了影响用户转发行为的因素,包括母语、地理空间、信息发布时间,以及信息发布者的粉丝数量、列表数量、是否认证等。通过在真实Twitter数据集上的实验发现,地理空间和时间的影响比较显著。在此基础上,对信息传播的时空模式进行了进一步研究。结果表明用户通常转发地域相隔不远的其他用户发布的信息,并且最新发布的消息更容易被转发和回复。但是用户偶尔也会转发遥远地域的其他用户的信息,这种信息转发的异常通常与现实热点事件的发生紧密相关。基于这些结论,本文提出了基于时空传播模式分析的热点事件检测方法。(2)非特定类型的热点事件检测。现有的社交媒体热点检测方法多数是针对特定类型热点,依赖于热点类型、关键词或热点描述等线索。而非特定热点检测任务中缺少这些线索,使得现有方法难以适用。针对这个问题,本文首先从地理的角度对信息传播模式进行研究,监测信息流动地图。通过与报纸、新闻网站等进行对比,发现现实热点事件会引起信息流动强度或方向的异常变动。在此基础上,本文提出通过检测地理信息流异常来发现非特定类型热点事件的方法。在真实Twitter数据集上的实验结果表明这种方法可以有效检测出重大热点事件。另外,实验还表明利用信息流中的转发消息Retweet抽取热点内容比使用原始的Tweet消息更高效。前者不仅使用的文本量大幅度减少,而且文本中包含更少的噪声。这说明相比日常生活中的琐事,用户更加倾向于转发与热点事件紧密相关的消息,因此转发行为具有重要的过滤作用,而整个Twitter网络可以视为一种的信息过滤器。(3)短消息集合中的热点内容抽取。特定日期的社交媒体消息中往往同时包含多个热点,怎样从中区分出各个热点并抽取每个热点的具体内容是热点抽取的主要任务。传统的热点抽取方法主要针对网页、新闻、博客等比较规范的长文本,并且基于TF*IDF等统计特征来抽取热点关键词,较少涉及语义。而社交媒体中的消息通常是短小、高噪声和实时的,针对社交媒体数据的这些特点,本文提出一种基于词向量语义聚类的新型热点抽取方法。这种方法从更细粒度的“单词”层面进行分析,通过使用词向量来度量词语之间的语义关联。实验结果表明该方法可以很好地划分话题,提取的关键词语义关联度强,在主要指标上优于传统的热点抽取方法。此外,实验结果还表明词向量模型整体上好于向量空间模型,尤其是在向量维度比较高的情况下。(4)社交媒体中热点的追踪方法。热点追踪是为了持续追踪热点的最新动态和发展趋势,其关键任务是判断新消息是否与现有热点事件相关联,本文将其归纳为消息分类问题。在此基础上,从新信息中抽取关键词等信息来更新已有的热点事件。由于Tweet消息短小而不规范,导致表示消息的特征向量存在“高维稀疏”问题。针对这个问题,本文使用基于词向量的新型特征向量。为了提高文本分类效果,本文还在消息分类过程中引入深度学习算法。在真实数据集上的实验结果表明,DBN(Deep Belief Network,深信度网络)模型在热点追踪任务中比传统机器学习模型更加有效,尤其是在特征向量维数比较低的时候,它的效果远好于其它模型。而基于词向量的特征向量模型可以有效提高短文本的分类效果,但是在长文本分类上没有优势。实验还分析了词向量模型和DBN模型参数调节对结果的影响,并给出了参数调节的经验规则。(5)面向热点发现与追踪的新型算法。机器学习算法在热点检测与追踪中扮演着重要角色,但是许多流行的聚类算法和分类算法都是批量监督学习算法,在社交媒体上的热点发现与追踪任务中存在一些不足。本文针对这些不足,提出一种新型神经网络模型及其增量式无监督学习算法,并将之应用于热点发现与追踪任务中。这种算法基于神经学实验证据,具有坚实的统计学基础。模型采用了自组织的思想,使用新的神经元激励函数和突触权值调节函数。真实数据集上的实验结果表明,在增量学习任务上这种算法的精度与k-means等经典聚类算法相当,但是时空开销更小。更重要的是,通过使用这种增量聚类算法,为热点检测与追踪这两个任务提供了统一的解决框架。综上所述,本文研究社交媒体中非特定类型热点检测、内容抽取和热点追踪等问题。提出了基于时空模式分析的热点检测方法、基于词向量语义聚类的热点抽取方法、基于深度学习模型的热点追踪方法等一系列新方法,较好地解决了热点发现与追踪问题。通过在真实的Twitter数据集上的实验,验证了相关方法的有效性。在此基础上,针对传统机器学习算法在社交媒体上热点发现与追踪任务中存在的不足,提出了一种自适应统计神经网络模型及其增量式无监督学习算法。
其他文献
估测是数学教学的重要内容,所以教师有必要让估测教学落到实处,使估测教学行之有效,这是小学数学课堂教学亟待探索的重要课题。
创意经济时代,知识与创意作为新生产要素,以强大的资源整合力和创新力在经济增长和价值创造中发挥着巨大的作用。该文简述了创意经济对产业发展的要求,分析了福建地理标志区域特
春秋时期,诸侯争霸,晋国霸业历时长而影响大。整体看来,晋人争霸占得四个优势。晋人源出姬周,在与异族争霸的时候容易得到同姓支持;晋国地势险要,处于中原,有着地利优势;晋人
保护宪法权利是现代宪法的基础,而限制宪法权利又被认为是现代宪法之公理。我国现行宪法第51条是一典型的宪法权利限制性条款。该条款初步划定了宪法权利的基本界限,在防止宪
【正】 生理条件下,糖酵解的终产物可以有两种,即丙酮酸和乳酸。如果氧供应允足,细胞就能把生成的丙酮酸和线粒体外的NADH用做线粒体内代谢过程的原料。若是相对乏氧,细胞的
近年来伴随着我国城市污水排放量与污水处理率的高速增长,产生了大量城市污水污泥,给环境造成了巨大压力。污泥含水率高,脱水减量是其处理处置的关键环节,能显著降低后端处置
分析化学的飞速发展使得分析化学突破了单一学科的领域,由分析化学变为分析科学,涵盖了化学与数学、物理学、计算机科学、生物学等一系列学科,发展成为一门多学科性的综合学
<正>自从事知识产权法律工作以来,我接触过很多类型的企业和发明人。有的企业非常有法律意识,尤其是知识产权法律意识,做出了一个技术方案之后,哪怕还没有完全成形,也要先了
<正> 如果我没有理解错的话,何生棠同志出于对会计事业的挚爱和对会计人员的厚望,在会计人员的形象(见本刊今年第9期)一文中,他以自己的博学多识,满腔激情地为八十年代的会计