【摘 要】
:
自万维网(WWW)诞生以来,各种信息不断在网络上涌现,网络用户数量也与日俱增。近些年,网络内容组织方式也在逐渐地发生变化,从“博客”到Facebook,再到Twitter,互联网上出现了
论文部分内容阅读
自万维网(WWW)诞生以来,各种信息不断在网络上涌现,网络用户数量也与日俱增。近些年,网络内容组织方式也在逐渐地发生变化,从“博客”到Facebook,再到Twitter,互联网上出现了越来越多的网民表达。这些网民表达中包含大量的评价、态度、情绪等主观性观点。概括地说,网络上有很多的网民,网民有很多的观点,而这些观点扩散的很快。这种情况不能不引起个人、企业乃至政府的关注。我们需要找出这些包含观点的信息,更需要对包含观点的信息进行情感分析。 作为文本情感分析研究工作,本文的研究重点有两个,分别是汉语情感词表构建和产品评论分析。对于情感分析,情感词表是非常重要的资源,而汉语情感词表资源还相对匮乏。另一方面,产品评论分析作为一个重要的情感分析应用也越来越受到关注。产品评论分析的工作也可以看成是本文情感词表构建工作的应用和延伸。 本论文贡献如下: (1)提出了通过无标注语料自动对形容词和动词进行主观性度量。该方法用于产品评论分析的主客观过滤环节,在不降低性能的前提下能起到降低数据规模的作用。 (2)充分利用语言中的极性非对称性,提出了形容词极性词表的自动构建方法。该方法不仅形式简单,而且具有较强的实用性。值得一提的是,该方法稍作修改能应用到{产品特征,观点}二元组的极性判定,这是其它单词极性判定方法所不具备的。 (3)通过整合多种资源,结合人工和自动的方法,构建了“喜怒哀惧惊”五个高质量的情绪词表。该词表可用于后续的情感分析任务。 (4)提出了用skip-Bigram集合表达单词序列。在此基础上,给出了抽取高频和低频产品特征的方法。通过这种集合表达序列的方式,可以方便地利用现有的许多机器学习算法,也便于计算序列之间的相似度,并捕捉灵活多样的产品特征或观点。
其他文献
随着操作系统和应用程序对复杂且高质量的图形图像处理要求越来越高,图形处理器已经成为计算机系统必不可少的部分,并且已经广泛应用于图形渲染外的通用任务上。近年来,伴随芯片
近年来,POJ系统逐渐应用于编程课程中,与教学结合得越来越紧密。我们发现仅靠反馈给学生评测结果是远远不够的。用户程序被判定为出错或超时后,往往希望系统能够给出错误原因
三维动态流场可视化是反映真实环境动态变化的可视化技术。采用粒子系统进行的可视化,使用大量具有一定属性的简单图元来表达不定形的物体或者微粒集合,具有绘制效率高,资源消耗
随着互联网的不断发展,XML在数据库领域发挥着越来越重要的作用。当前对XML数据的查询需求也不断增强,为此,W3C提出了XQuery语言,作为XML查询语言标准。XQuery和XML数据的关系类
系统芯片为移动设备提供了低成本、小尺寸、高性能、低功耗的解决方案,近年来得到了快速发展。随着工艺水平的提高和芯片设计规模的增大,系统芯片功耗管理为芯片开发带来了挑战
在航天任务中空间柔性展开机构广泛用于探测载荷、通信天线和太阳能帆板等的支撑结构。在飞行器轨道中,携带柔性展开机构的飞行器处于真空和微重力环境下,受飞行器平台动作影
近年来,随着传感器技术、嵌入式技术和无线通信技术的不断发展,无线传感器网络成为在国际上备受关注的前沿热点领域。它在工业、农业、军事、科研等领域均有广阔的应用前景。Zi
路径规划问题(Routing Planning Problems,RPP)在航线设计、管道铺设和改善城市交通等现实应用中有着十分重要的作用。根据不同的限制条件和求解要求,RPP问题又可以细分为最优路
随着信息科技的发展和应用的普及,以及政务信息和商务信息迅猛发展,分布式技术得到了快速的发展。在诸多分布式技术中,CORBA作为跨平台跨语言的分布式技术得到了很好的发展。COR
L2Cache(Level-2Cache,二级高速缓存)是计算机体系结构中连接L1Cache(Level-1Cache,一级高速缓存)和主存的缓存单元,负责实现L1Cache与主存的数据缓存及传输功能,是计算机系统的