文本情感分析中关键问题的研究

被引量 : 29次 | 上传用户:datou19881020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的发展,互联网中每天都在涌现大量的富含主观情感的信息,如论坛贴子、微博、在线评论等,这些主观信息在互联网信息挖掘中具有重要价值。情感分析,又称为观点挖掘,其研究目的是理解文本中人们对于某个实体(包括产品、服务、个人、组织机构、事件、议题)的评判态度(支持或反对、喜欢或厌恶等)或情绪状态(高兴、愤怒、悲伤、恐惧等)。本文重点研究不同文本粒度下情感分析的关键问题。在词语级情感分析中,本文重点关注的问题是:词在不同领域下往往会表现出不同的情感倾向性。本文提出亲和力传播算法以判断特定领域下词的语义倾向性。该算法首先基于激活力模型构建原始语料集的词亲和力网络,该网络通过词之间的语义激活关系计算词的链接结构相似度。然后,算法将词表示为富含全局语义信息的亲和力向量以计算该词与种子情感词之间的相似度,从而完成情感信息在整个词网中的传播。实验结果表明,该算法可针对不同领域有效地构建语义倾向性词典。本文将文档级情感分析看作是一种分类任务而重点研究特征选择对提升文档情感分类性能的作用。借鉴线性鉴别分析算法的思想,本文提出了无监督的情感鉴别分析(SDA),通过每个文档的局部情感散度矩阵构建目标函数,求解最优线性分类器,进而获得每个特征的情感鉴别得分。另一方面,本文利用激活力模型计算每个特征与先验情感词的整体亲和力,即全局情感强度。本文认为SDA保留了文档之间的局部情感结构,而情感强度计算(SSC)则侧重于特征在语料集中的全局情感倾向性,二者具有一定的互补性。因此,本文将SDA和SSC进行线性加权组合并最终形成了无监督情感特征选择算法—USFS。文档级情感分析的细致度有时无法满足某些应用场合的需求,因而还需要进行要素级情感分析。要素级情感分析是针对情感定义中的五个基本要素进行观点挖掘,是一种更细粒度的情感分析技术。属性抽取是其中的一项重要任务,而对属性的置信度评估则是确保系统抽取性能的关键。本文提出了一种两步置信度评估法:在基于模式的Bootstrapping算法中通过“广泛度”和“可靠度”交互式地评估候选产品特征词和依存模式;第二步将上一步获得的候选特征词聚合为属性类,通过衡量聚合类的“紧凑度”和“材质”进行过滤。针对电子产品评论的实验表明,本文提出的两步置信度评估法可同时保证属性抽取的准确率和召回率。另外,在属性抽取的基础上,本文还提出了一种迭代式地聚合计算策略,从产品属性的所有评价搭配中有效地分析了该属性在整个评论集上的全局信誉度。最后,本文提出一种在线的产品属性情感摘要系统——SSPA。SSPA综合运用词语级、句子级、要素级的情感分析技术将非结构化的原始产品评论集转化为结构化的基于产品属性的情感摘要。摘要中首先列出关于某类产品的所有属性,然后按情感强度将各个属性下的正、负倾向性句子及其所评论的产品名称展现给用户。SSPA系统可方便消费者或商家浏览某类产品不同属性下的产品评价情况。
其他文献
本文以高密度聚乙烯(HDPE)为原料,甲基丙烯酸缩水甘油酯(GMA)为接枝单体,采用氯化原位接枝法,得到官能化氯化聚乙烯接枝聚合物(CPE-cg-GMA)。该产物由于其特殊的分子结构,展
盈余公告后的漂移现象(PEAD)一直是财务学和会计学关注的热点之一。本文从信息不确定性的角度出发,对PEAD现象的存在性和持续性问题作了研究。我们的结论是:信息质量是PEAD产
随着我国城市化和工业化进程的加快推进,农村大量集体土地被征用,农民失去了祖祖辈辈生存与发展所依赖的土地,成了失地农民。由于我国现行土地使用制度缺陷,二元经济社会结构的现
在调整Pagan和Sossounov(2003)牛、熊市判别标准的基础上,本文诊断了我国股市的牛、熊市周期,探讨牛市和熊市的5个数量特征及股市间的周期协同性。研究表明:在1992年3月 ̄2004
当今世界,网络迅速发展,它在给我们带来丰富资源和便捷服务的同时,也带来了一系列风险。数据丢失、信息窃取现象数不胜数,成为人们网络生活的重大隐患,甚至带来经济损失。尤
公益活动作为解决社会问题,促进社会和谐发展不可缺少的一环,历来受到各个国家与社会的重视。由于经济水平、社会发展程度的不同,我国公益活动的整体发展水平与国外相比还有
近年来,房地产业作为国民经济新的增长点,为中国经济发展作出了巨大的贡献,而房地产信息化建设与之相比,严重滞后。所以,只有大力加强房地产信息化建设,才能与房地产业的蓬勃
市场竞争中 ,企业的商业模式决定其盈利能力。美国、日本和欧洲发达国家铁路运输企业商业模式的演变历程 ,启示中国铁路运输企业在发展中应充分利用网络经济效应、提升运输中
信息流与物质流、能量流一样,都是生物完成各种生命活动的基础。在生命系统各结构层次上都存在信息传递,细胞水平上的信息传递是生命系统其他各结构层次上信息传递的基础。
2013年12月6日,备受金融界、地产界、法律界关注的“昆山·联邦国际”资产收益权信托案终于在上海市高级人民法院做出终审判决。上海高院秉持对民商事案件“实质重于形式”的