论文部分内容阅读
在过去的十年里,越来越多的人使用社交网络,诸如微博、Facebook和Twitter等,使得这些社交网络平台的用户数量和用户生成的内容信息呈指数级增长。信息的传播利于新思想、新观点的传递,促进了人们的沟通和交流,但同时也导致了攻击、谩骂、诋毁等网络暴力语言的发生。这些网络暴力语言不仅给用户带来了精神和心理上的痛苦,也严重影响了网络社交和谐环境。目前大部分社交网络平台没有采取有效的管理,只针对少量常见的网络暴力词汇进行过滤和屏蔽,由于社交网络的文本评论动辄几万条甚至上百万条,不可能依靠人工完成对这些网络暴力语言的识别,所以研究可以自动识别和检测网络暴力语言的方法对于干预网络暴力、净化网络环境有十分重要的意义。本文针对网络暴力语言的特点和表现形式,从新浪微博爬取数据集,使用一种半监督学习通过少量人工干预的方式选取特征,经过8次迭代,建立了一个高质量的网络暴力语言语料库并在此基础上研究网络暴力语言文本的检测方法。本文对比了支持向量机SVM、朴素贝叶斯NB、逻辑回归LR三种机器学习算法模型的分类效果,其中SVM结合N-gram特征的精确率可以达到78%。为了进一步提高文本分类精确率,解决在文本预处理时数据非结构化、中文分词不准确的问题,采用字符嵌入向量做为卷积神经网络模型的输入,实验结果表明Char-CNN在精确率、召回率、F1值对比其他模型方法有一定提升。