基于社交网络的暴力语言检测研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:YIFEIFEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的十年里,越来越多的人使用社交网络,诸如微博、Facebook和Twitter等,使得这些社交网络平台的用户数量和用户生成的内容信息呈指数级增长。信息的传播利于新思想、新观点的传递,促进了人们的沟通和交流,但同时也导致了攻击、谩骂、诋毁等网络暴力语言的发生。这些网络暴力语言不仅给用户带来了精神和心理上的痛苦,也严重影响了网络社交和谐环境。目前大部分社交网络平台没有采取有效的管理,只针对少量常见的网络暴力词汇进行过滤和屏蔽,由于社交网络的文本评论动辄几万条甚至上百万条,不可能依靠人工完成对这些网络暴力语言的识别,所以研究可以自动识别和检测网络暴力语言的方法对于干预网络暴力、净化网络环境有十分重要的意义。本文针对网络暴力语言的特点和表现形式,从新浪微博爬取数据集,使用一种半监督学习通过少量人工干预的方式选取特征,经过8次迭代,建立了一个高质量的网络暴力语言语料库并在此基础上研究网络暴力语言文本的检测方法。本文对比了支持向量机SVM、朴素贝叶斯NB、逻辑回归LR三种机器学习算法模型的分类效果,其中SVM结合N-gram特征的精确率可以达到78%。为了进一步提高文本分类精确率,解决在文本预处理时数据非结构化、中文分词不准确的问题,采用字符嵌入向量做为卷积神经网络模型的输入,实验结果表明Char-CNN在精确率、召回率、F1值对比其他模型方法有一定提升。
其他文献
复发性口腔溃疡(ROU)治疗方法虽多,但疗效均不太理想.我科用西帕依固龈液治疗160例ROU患者,并对其临床疗效进行统计学分析,观察其对局部疼痛的缓解情况及对受损黏膜的修复促
目的:探讨球囊与冠脉导丝联用处理冠脉介入桡动脉痉挛的临床效果。方法:以我院2016-11~2017-11收治的冠脉介入术后出现桡动脉痉挛的74例患者为本次研究对象,按照不同处理方法
生鲜肉是人们日常生活中不可缺少的食品原料,冷却肉在使用性、营养性和安全性方面均具有显著的优势,因此已经成为生鲜肉生产的主流。而冷却牛肉在生产、加工、储存过程中易受
据2018年9月6日凤凰网房产天津站:天津市人力社保局和市外专局日前发布《关于进一步优化营商环境鼓励和支持外国人才来津投资创办企业及工作的通知》(简称《通知》),实施更加积
目的:探讨口腔颌面部肉瘤(oromaxillofacial sarcoma, OMFS)中Survivin蛋白表达对肿瘤细胞凋亡的影响.方法:应用免疫组织化学技术和DNA原位末端标记(TUNEL)法检测37 例OMFS组