中文垃圾短文本的自动识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:changkou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社会上用于信息交互的各种社交平台、即时通讯工具日益普及。这些用来信息交流的平台工具目前主要使用短文本作为信息传播与交互的载体,其方便、快捷、高效的特点适合当今信息化、快节奏的生活。所谓短文本主要是指手机短信、微博、商品评论、论坛帖子等一类长度较短,字数有限的文本。在该类短文本中,往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本,例如垃圾短信、广告微博、虚假评论等。由于短文本长度较短,字数有限,编辑来源广泛且内容编辑存在诸多不规范。因此,对其进行二分类,识别其中的垃圾类短文本时将会面临三个问题:(1)数据噪声大;(2)训练数据集不平衡;(3)如果直接采用基于词表的向量空间模型来表示短文本,将会导致特征向量过于稀疏且维度较高。针对以上三个问题,本文主要进行了以下研究:1)提出了适用于短文本的预处理方法,对短文本数据进行规范化处理,主要包括“错别字纠正”、“繁体字转换”、“大小写字母的转换”、“同类信息的统一化表示”等,在一定程度上减少数据集中存在的噪声。2)从短文本内容的编辑语法、用词特点等及非内容的结构属性,即多个角度来提取特征,避免采用基于词表的向量空间模型表示短文本时,特征向量过于稀疏且维度较高。3)提出了随机森林与Adaboost相结合的“随机森林+Adaboost”集成分类方法,该方法将随机森林作为Adaboost算法的基分类器,用来降低数据噪声及数据不平衡所带来的影响。由于短信与商品评论在内容上具有较大相似性,故本文通过选取短信、商品评论作为研究对象,采用本文所提出的方法进行垃圾短文本的识别研究工作。最后,在由中国移动提供的大量短信数据集及COAE 2015任务四的评论数据集上进行实验,结果表明本文所提出的方法是有效的,而且“随机森林+Adaboost”集成算法相对于其它分类算法具备一定的优越性。
其他文献
随着互联网的迅猛发展,传统媒体转型发展与新兴媒体融合发展作为新时期的新课题摆在我们面前。以iptv(交互式网络电视)产品运营为例结合城市广电特点展开探讨思考,分析城市广
为了揭示传统插板法计算模型中未考虑后退过程中沥青表面液体膜压力的影响以及存在沥青表面能无解这两个缺陷,本文以添加抗剥落剂后的沥青和酸性砾石集料为样品进行插板法试
大班的幼儿经过两年的幼儿园教育,一些良好的行为习惯已经养成,随着年龄的增长,他们的自制能力和规则意识在逐渐形成,辨别是非的能力也有所增强。培养幼儿的自主管理能力既能
随着我国旅游业的快速发展,日趋激烈的市场竞争局面使中小旅行社承受了来自大型旅游集团和内部管理机制改革的双重压力。虽然我国中小旅行社在数量上占优势,但在产品开发、品
<正>一、引言由于黑人在美国历史上的特殊境遇,"自我"成为美国黑人文学作品中一个不可回避的母题。被强行贩卖至北美的黑人群体一方面被完全切断了与非洲文化的联系,另一方面
信息技术环境下,翻转课堂作为互联网时代的产物引起广泛关注,研究团队以平板电脑为例,开展翻转课堂中移动学习资源的设计与研究,了解了学习者对移动学习资源实际需求,在此基
目的 探讨急、慢性胰腺炎血管并发症的CT表现 ,评价螺旋CT对其诊断价值。方法 对 316例急、慢性胰腺炎患者的临床资料和CT表现作对照分析。重点观察有腹腔出血和腹腔血管异
目的建立栀子金花丸中多指标性成分的高效液相色谱含量测定法,评价其质量。方法采用高效液相色谱法,ZORBAX Eclipse XDB-C18反相色谱柱(250 mm×4.6 mm,i.d.,5μm),以乙腈(A)-水(
随着全球经济的日渐复苏,我国工业得到了迅猛发展,制造业对金属线材的需求不断上升,而我国生产金属线材的拉丝机生产线的整体性能相对落后,特别是拉丝成型的主要设备牵引机的