论文部分内容阅读
当前社会上用于信息交互的各种社交平台、即时通讯工具日益普及。这些用来信息交流的平台工具目前主要使用短文本作为信息传播与交互的载体,其方便、快捷、高效的特点适合当今信息化、快节奏的生活。所谓短文本主要是指手机短信、微博、商品评论、论坛帖子等一类长度较短,字数有限的文本。在该类短文本中,往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本,例如垃圾短信、广告微博、虚假评论等。由于短文本长度较短,字数有限,编辑来源广泛且内容编辑存在诸多不规范。因此,对其进行二分类,识别其中的垃圾类短文本时将会面临三个问题:(1)数据噪声大;(2)训练数据集不平衡;(3)如果直接采用基于词表的向量空间模型来表示短文本,将会导致特征向量过于稀疏且维度较高。针对以上三个问题,本文主要进行了以下研究:1)提出了适用于短文本的预处理方法,对短文本数据进行规范化处理,主要包括“错别字纠正”、“繁体字转换”、“大小写字母的转换”、“同类信息的统一化表示”等,在一定程度上减少数据集中存在的噪声。2)从短文本内容的编辑语法、用词特点等及非内容的结构属性,即多个角度来提取特征,避免采用基于词表的向量空间模型表示短文本时,特征向量过于稀疏且维度较高。3)提出了随机森林与Adaboost相结合的“随机森林+Adaboost”集成分类方法,该方法将随机森林作为Adaboost算法的基分类器,用来降低数据噪声及数据不平衡所带来的影响。由于短信与商品评论在内容上具有较大相似性,故本文通过选取短信、商品评论作为研究对象,采用本文所提出的方法进行垃圾短文本的识别研究工作。最后,在由中国移动提供的大量短信数据集及COAE 2015任务四的评论数据集上进行实验,结果表明本文所提出的方法是有效的,而且“随机森林+Adaboost”集成算法相对于其它分类算法具备一定的优越性。