汉语主客观文本分类及预处理研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:guxleo3322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长,人们很难在较短的时间内找到自己所需要的信息,这也就是信息过载的问题。文本分类是当前数据挖掘的一个重要研究方向。一些应用方面的工作,如对电子商务的评价,民意调查的结果等等都需要对文本进行挖掘。然而,从海量的信息中人工查找具有意见性的主观性文本是不现实的。在本文中,我们提出一个方法来针对主客观文本进行分类。通过分析主客观文本之间存在的差别来抽取能够区别它们的一些特征。最终应用朴素贝叶斯和支持向量机模型,用特征项的不同组合对其进行主客观文本分类,力争达到最优效果。随着即时通信软件(Instant Messaging)的普及(如MSN,QQ等),一种非规范语言就广泛出现于其中。在这些环境中使用的特殊语言被称为为网络非规范语言(Network Informal Language, NIL)表达。例如在网络聊天中常用“8错”取代“不错”,用“稀饭”表示“喜欢”等等。在传统的文本挖掘中,这些信息都被视为噪音。但事实上,包含这些非规范词语的句子经常会存在用户的表达个人意愿的信息。举个例子,“这款车型还是受广大车迷稀饭的!”可以看出,在这个句子里面,“稀饭”表达“喜欢”。通过这句话持有者表达了自己对某一车型的观点和看法。在本文工作中,文本预处理研究就是对这些主观性的文本进行正规化处理。首先通过编写特定的网络蜘蛛程序收集某论坛上一定时间段内的网页。对网页进行人工筛选,构建非规范语言词典。最终将互联网上常见的非规范词语划分为六个大类。考虑到处理成本的问题,将这六个大类别划分成两个大类:典型非规范语言和歧义非规范语言。对于典型非规范语言,采用基于序列覆盖算法的模式匹配方法对其进行正规化处理。而对于歧义非规范语言,由于这种类别很难从字词层面上判断出是否是非规范词。采用基于特征抽取的分类方法将其识别。最终都达到正规化的目的。得出基本正规的主观性文本。
其他文献
基于计算机视觉的手势识别被广泛地应用在人机交互领域。它能够利用相关算法对摄像机捕获的图像序列进行分析并识别其中的手势。本文主要通过对手势识别的研究实现了一个虚拟
搜索在博弈方面的运用是非常重要的,是得出最优落子点最有效的方法。然而,当前的博弈搜索都是串行执行的,执行时间长,深度不够,不能在有限的、规定的时间内搜索出最佳落子点
万维网已经和我们生活的各个方面紧密联系在一起了。我们使用它获取信息,与人们进行交流,使用万维网更加高效地工作,进行各项社会活动。如何从Web上快速准确的检索到用户所需
无线数据广播是目前无线移动环境中一种有效的数据传递方法。服务器通过公共的信道发送信息,用户在广播信道上侦听并及时将自己感兴趣的数据下载到本地。相比传统的点对点数
在并行计算机中,互连网络为处理器间数据传输提供了一种有效机制。并行机的性能和可靠性在很大程度上依赖于底层网络的拓扑性质。一种互连网络在投入使用之前,开发者应该充分
煤炭资源是我国重要的能源资源,煤炭的开采过程中存在着较多可能导致矿井事故的安全隐患,随着科学技术的进步和生产力水平的提高,煤矿安全生产也得到了社会的高度关注和重视,
学位
移动Adhoc网络是一种无固定基础设施的无线自组织、自愈网络,网络中的节点可以向任意方向移动,因此,网络的拓扑结构是动态变化的。由于其网络具有分布性、动态性、自治性、移动
中冶长天烧结综合控制专家系统(Sinter Integrated Control ExpertSystem,SICES)是为了提高国内钢铁企业中烧结生产的过程控制水平而开发的。它在满足烧结生产的质量和产量目
随着高等教育改革的不断深化,学分制逐渐成为各高校广泛采取的教学模式。学分制有利于学生自主安排学习、增强竞争意识等,但也容易导致学生选课的盲目性,即有些学生不考虑自己的