社交媒体账号分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:baimn1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,社交媒体逐渐成为人们交流互动和信息分享的重要工具。而账号作为人们在社交媒体进行活动的主体,承担着信息发送、传播和接收的重要作用。从海量的社交媒体账号中快速高效地识别出携带特定价值信息的账号并进行分类管理,有利于建立更加完善的社交媒体信息管理体系,对构建健康、有序的社交媒体环境具有重要作用。社交媒体账号分类包含垃圾账号过滤和账号主题识别两部分,其中垃圾账号过滤目的是识别并过滤掉携带价值信息过少的无用账号,如营销账号、机器人账号等;账号主题识别目的是区分关注不同主题信息的账号,如政治、军事、新闻等。现有的账号分类方法在网络特性分析和内容特性分析上不够全面、深入、准确,导致垃圾账号过滤和账号主题识别的效果不佳,难以在实际中大规模应用。为此,本文对社交媒体账号分类方法进行研究,主要贡献概括为如下两个方面:(1)提出一种基于用户交互行为的垃圾账号过滤方法,该方法从内容特性和网络特性两个方面的交互行为进行用户特征挖掘。基于内容特性分析,将多条短文本组合成长文本作为整体账号内容信息,使用信息增益的方式选择特征词,构建内容特征向量。基于网络特性分析,利用用户社交关系构建局部网络关系图,从用户自身和用户邻居两个方面,提取了大量有用的网络特征。在对比实验中,基于内容和网络的联合特征进行垃圾账号过滤的效果明显比单一特征更好,垃圾账号识别的准确率达到了91.8%。(2)提出一种基于卷积神经网络的账号主题识别方法。传统的账号主题识别是基于词袋模型的,不仅忽略了文本单词间的语义关联信息,还忽略了账号文本间的主题关联信息。本文利用word2vec模型将单词表示为低维稠密向量,具有保持相邻词汇间语义相关性的优势,同时引入了文本的主题概率分布信息,利用卷积神经网络提取局部主题关联性特征。通过分析引入文本主题分布信息前后的实验结果,并与传统词袋模型的实验结果进行对比,证实了语义关联信息抽取和主题关联信息抽取的有效性。
其他文献
雅泸高速公路大相岭隧道斜井斜距长、坡度陡,地质复杂,井身正常涌水量为3 010 m3/d,局部日最大涌水量达27 000 m3。根据工程特点,泵站抽水设备由2台55 kW卧式离心泵和1台30 k
<正> 祖国在每个人心中都刻有深深的印记。在幼儿园里,老师告诉我们说:祖国是我们的国家,祖国就像我们的妈妈。——我爱妈妈,我爱祖国。作为"60后"的一代,这种情感常常在我心
期刊
<正>“重大历史题材”这个概念近年来很少听到了,不过,从上个世纪50年代走过来的人对它不会陌生,学人、艺术家与它之间更是牵绕纠缠、于系难了。共和国建立后,强调文艺为政治
期刊
虚拟现实技术,是用现代计算机技术创建的一个酷似客观环境又超越客观时空、既能沉浸又能驾驭的和谐人机环境。传统虚拟现实技术是基于计算机图形学的理论来建模,随着虚拟现实
绩效考核是企业管理的中心环节,是推动企业成长的“引擎”,没有完善的绩效考核,企业的发展战略就无法落实到具体的工作目标之中。近几年来,一种新的绩效考核方法——360度绩
为开发出具有几何、拓扑与时间等属性综合查询功能的四维地质信息系统,提出了一种新的基于四维地质模型与地质数据管理系统的架构。该架构将几种不同的软件组件与地质数据模
作为全球最大的纺织品出口国,纺织服装业是我国的传统优势产业,也是我国具有较强国际竞争力和对国际市场依存度较高的产业。根据《纺织品和服装协定》,2005 年1 月1 日纺织品
根据格雷码的特性,介绍了一种用拆分计数方式实现多位格雷码计数器的方法。在QuartusⅡ开发平台上使用VHDL编程实现32位格雷码计数器,并得到仿真波形。实验结果表明多位格雷
<正>一、唐代科举制度与“唐尚法”唐代科举,无论是贡举还是铨选,书法都被列为重要科目或作为任用的先决条件。贡举即分科取士,常设的有秀才、明经、进士、明法、明书、明算
<正>对于道德与艺术审美的关系,历史上有两种不同的观点。其一认为道德与艺术是绝对对立的,二者毫无关联。这种观点的理由似乎很充分:道德的评价标准是善与恶,艺术的评价标准