论文部分内容阅读
随着电子商务、社交网络的蓬勃发展,网络微博这一时下最为流行的新媒体,正成为广大网民交流思想、发表看法、畅谈心情、评论时事的主要平台,而且也逐渐转变为各类商家了解需求、抢占市场、争夺客户的前沿阵地。微博中涌现的大量个体主观信息对于市场需求、行为预测、观点分析、人机交互等诸多领域都有着极其重要的现实意义。针对这一实际,网络情感倾向性分析这一关键技术应运而生,通过对网络中出现的各类信息进行文本分类、文本聚类、文本检索、信息抽取等多项分析处理,从庞杂的信息浪潮中获取有价值的信息,快速形成体现当前主流观点、反映商业发展趋势、预测社交流行动向的多种情感倾向性数据,满足各类人群的不同需求。研究认为,中文情感词库是中文情感倾向性分析的数据基础,情感词库构建的好坏能够直接影响甚至制约情感倾向性分析过程的时效性以及分析结果的可靠性。然而,目前中文情感词库不同程度地存在着收录情感词语数量偏少、情感类别划分不准、情感极性描述单一的问题。而且,随着互联网的广泛应用,网络语言层出不尽,产生了许多旧词新义的词汇,对情感词库的构建也产生了很大影响。因此,如何发现这些旧词新义词汇意义的变化,是现在情感词库构建的关键技术之一。针对上述问题,本篇论文主要研究内容和特点如下:1.介绍了基于本体的情感词库设计与实现的过程。针对目前已有的中文情感词库中存在的问题,本文自行设计的情感词库在体系架构、编码方式等方面进行了改进,突出了对细粒度情感的描述,更接近于人类的情感倾向,同时,设计的词库自学习扩展功能,还实现了对词语知识库的及时更新。最后,通过实验验证了该方法的可行性。2.阐述了网络“旧词新义”新词的发现算法。本文以自行构建的情感词库为基础,重点对网络微博中容易引起“语义模糊”的网络新词发现问题进行了研究,提出了三步网络新词识别算法,以实验验证了该算法对提高现有系统网络新词识别准确率的有效性。