社交媒体衍生主题的发现及其衍生趋势研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:z675083421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Twitter、微博等在线社交媒体的快速发展,短文本已经成为互联网上常见的信息形式。由于社交媒体具有便捷性、灵活性、公共性等特点,这使得公众舆论在互联网上传播迅速,公众对于信息的接收速度快。当出现一个舆论话题的时候,随着信息在社交网络中的迅速传播,一个话题会在信息的传播过程中衍生出一个或更多的新话题。对于在社交媒体话题出现的这种现象,我们提出了衍生主题的概念来描述这种信息传播过程中话题产生的变化趋势,利用主题的衍变方式来发现舆论及其衍生趋势。针对以上问题,本文首先提出了衍生主题的概念来描述我们的发现,并且结合段落向量表示和主题模型来对短文本进行主题建模,发现主题之间的衍生关系。本文从文本内容和用户之间的交互关系两个方面来研究衍生主题的情况,改进非负矩阵分解算法(NMF)来讨论主题衍生的趋势。本文的主要工作如下:(1)提出衍生主题的概念。衍生主题描述了话题传播过程中产生的话题偏移的现象,原始主题可能衍生出一个或多个主题。并将其定义为三类衍生关系:相同主题,相似衍生主题,完全衍生主题。(2)结合段落向量表示和主题模型对短文本建模。衍生主题的出现是随着时间推移所产生的,所以本文按照时间段来分析主题之间的关系。本文将短文本按照一定的时间段进行分组,采用灵活时间片的方法保证每个时间段的帖子数量相对一致。同时,本文结合了段落向量表示和主题模型,解决了短文本信息稀疏的问题。由衍生主题的定义来说,衍生主题之间通常具有相同的主题词。首先利用paragraph2vec学习短文本的段落向量表示,对短文本进行主题聚类。然后用LDA模型对生成的伪文档进行主题建模,构建主题-词概率表。(3)结合用户交互行为研究主题衍生的趋势。在社交媒体上用户转发和提及行为往往都是关于同一个主题的,但是具有相同主题的帖子也可能会具有不同的文本内容。所以,如果只考虑文本内容主题可能会忽略一些隐式的主题关系。因此,本文在发现文本内容主题的基础上考虑了用户之间的交互动作关系,即:用户之间的“提及@”,转发和回复行为,来讨论主题衍生的趋势。本文改进了非负矩阵分解算法(NMF),帖子之间的关系由短文本主题,用户之间交互的行为(提及@,回复和转发)因素组成,将帖子-帖子关系矩阵分解为主题-帖子和主题-词矩阵,发现短文本之间的主题关系。(4)本文通过改进原来的方法成功解决了短文本的稀疏性,讨论了衍生主题的演化趋势。本文分别采用了带有时间信息的微博数据集和具有用户交互信息的推特数据集来验证所提出的方法。通过实验与LDA、BTM、NMF等主题模型方法进行了对比,取得了良好的效果并解决了短文本数据稀疏性。
其他文献
学位
学位
本文对一类带有非线性扩散项和耗散项的BBM方程的初边值问题进行了有限差分方法研究。先在时间层将非线性项uux进行两层线性化离散处理,提出了一个理论精度为O(τ2+h2)的两层线性差分格式;然后利用Richardson外推的思想在空间层进行外推,使空间层具有四阶理论精度,进而又构造一个理论精度为O(τ2+h4)两层线性差分格式,且两个差分格式都合理地模拟了原问题的一个守恒性质。在不能得到其差分解最大
建筑信息模型(BIM)提出至今,已经在全球获得了广泛的认可。在我国,随着“数字中国”概念的提出,建筑业对BIM技术的发展越来越重视,BIM技术在建筑的设计阶段和施工阶段的应用已经较多,并且大部分应用都能取得可观的投资收益。建筑运维阶段作为建筑全寿命周期中占时最长、成本投入最高的阶段,一直以来都缺乏信息化、科技化的管理手段,大量的数据信息收集、整理等重复性工作,需要投入大量人力成本和时间成本,存在信
目前,亚健康与人口老龄化等话题受到人们的广泛关注,心血管疾病作为严重影响着人们健康生活的慢性疾病,其预防与诊断一直是医学界所面临的急需解决的重要问题之一。心音能够反映与心脏疾病相关的各种信息,心音信号的分析对诊断心血管疾病具有重要影响。本文针对肥厚型心肌病分类准确率不高的问题,从特征参数提取及优化角度进行相关算法的研究,主要包括以下几个方面:(1)小波域特征提取。文章基于小波变换获得具有不同频率成
我国是一个农业大国,农作物主要灾害之一就是农业虫害,不仅降低农作物的质量和产量,而且影响国民经济,浪费农业资源。提高农作物产量和质量的方法之一就是提前对虫害进行防治。随着科学技术发展,物联网技术在农业方面的大规模应用,很好的解决了地域分布、可靠的信息传输以及建设成本等问题,推动了我国智慧农业的发展。本文通过对虫害防治和新一代信息技术的研究,构建了基于物联网技术的虫害自动监控系统,该系统能准确的获取
莼菜(Brasenia schreberi)系睡莲科(Nymphaeaceae)莼属(Brasenia)水生植物,其主要的活性成分为多糖。目前对莼菜多糖的研究主要集中在其碱提多糖,而对水提多糖的研究较少。本课题以莼菜为实验原料,通过对碱液提取法、酶液浸提法、热水浸提法三种方法所提莼菜粗多糖的理化性质和抗氧化活性比较,筛选出最佳的莼菜多糖提取方法为热水浸提法;用水提法制备水提多糖,并对其进行酶解工艺
随着十四五时期的到来,我国智慧城市建设已经进入了一个新阶段,智慧城市建设是我国的重要战略布局之一。而物联网、云计算、互联网等新一代信息技术的应用时时刻刻都在影响着智慧城市的建设,所以物联网应用是智慧城市建设工作的重点之一。在物联网应用上,地域不同导致各地物联网应用情况参差不齐,比如在成都市范围内,城市居民生活便捷程度、政务服务相关基础设施建设、建筑产业赋能等都亟待提高。因此本文从物联网应用入手,对
汛期泄洪时,总溶解气体过饱和(Total Dissolved Gas,简称TDG)现象极易出现在位于高坝下游河道的水体中。已有研究证实水生生物(多以鱼类为主)会由于水体中的TDG过饱和而患上气泡病,其正常生存将受到影响。TDG过饱和将会破坏下游水生生态系统的调节功能及其稳定性。近年来,由于电能需求的日益增加,我国高坝建设规模不断扩大,所面临的TDG过饱和问题也日渐严峻。因此,针对汛期期间高坝下游T
本文主要研究以下具有间接信号产生机制的Keller-Segel(-Navier)-Stokes方程组在有界区域上的齐次Neumann初边值问题:(?)其中Ω为RN(N∈{2,3})中具有光滑边界的有界区域.本文结构如下:引言部分介绍趋化-流体耦合方程组的模型背景和与本文研究相关的一些研究现状.第1章:阐明本文研究内容及主要结果,并给出一些必要的预备知识.第2章:研究空间维数N=2、对流项系数k=0