基于情感分类的产品评论垂直搜索引擎的研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:papalong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,电子商务的不断兴起,BBS、博客、微博的不断涌现,商家与购买者的网上交互日趋频繁。越来越多的购买者在使用产品后,将产品的评论发表在网上,评论的数量与日俱增,评论的本身口语化较多并呈非结构化。商家在决策市场供求关系、潜在购买者在购买产品时,若从海量的产品评论中人工的挑选出自己关心的信息,是耗时和费力的,并带有片面性和滞后性。因此搜索引擎在当今互联网中扮演着重要的角色,像百度、谷歌这样强大的搜索引擎是针对不同领域、不同种类的通用搜索引擎。在特定的产品评论领域中,却显得力不从心。所以,在这样的背景下,一款具有情感分类的产品评论垂直搜索引擎的研究与开发是很有必要的。在国内外研究现状的基础上,针对中文产品评论文本中评价对象的识别、评价短语的识别、评价对象与评价短语的搭配识别及评价短语的情感倾向性分析,做了进一步研究。主要工作如下:(1)在识别评价对象方法上,利用词性序列获取评价对象候选集,并提出了评价对象的完整性和稳定性的概念及算法,用来过滤评价对象的噪声。利用评价对象与评价短语的同现规则及评价对象在整篇评论文本中或整个语料集中出现的频率,进行评价对象的置信度排序,最终抽取出评价对象。(2)对连词词典、情感词词典、程度词词典及否定词词典进行了完善,用以识别评价短语及分析评价短语的情感倾向性。并通过评价对象与评价短语之间关系的8个特征,利用支持向量机来识别评价对象与评价短语的搭配关系,最终判断整篇评论文本的情感倾向性。(3)以中文产品评论文本的情感倾向为基础,利用目前流行的SSH框架、mysql数据库及开源软件包lucene,构建了一个垂直搜索引擎,用户可以方便、快捷的查询自己感兴趣的相关信息。通过上述的研究所构建的具有情感分类的垂直搜索引擎,使得商家和潜在客户可以从浩如烟海的评论文章中快速而准确的找到对自己有用的信息,具有一定的商业价值。提出的中文文本情感分类的研究方法,具有一定的学术价值。
其他文献
随着信息技术的飞速发展,工业无线网络技术已经成为自动化领域新的研究热点。从无线传感器网络发展而来的工业无线网络技术是一种面向设备间信息交互的无线通信技术,除了具有
外观设计专利图像是中国外观设计专利的主要组成部分,对准确表达外观设计专利的设计要点具有非常重要的作用,因此基于图像内容的外观设计专利检索具有极大的意义。基于内容图像
近年来,在娱乐界和科学应用的驱使下,立体图像成为了一个广阔的研究领域。随着立体技术不断发展,产生了各种3D应用,如3DTV。3D图像的传输链包括图像采集、编码压缩、网络传输、在
随着互联网用户规模的指数型增长,以及IPV4空间的枯竭,地址空间问题受到了前所未有的关注。在层次化路由模式发展出现局限的现今,即便是IPV6的使用使得空间问题得到了暂时性的缓
为了提高发电机组培训质量和效率,本文研究用三维虚拟仿真技术来模拟风力发电机组结构与功能、风机运行过程,用虚拟人模拟检修人员执行风电机组巡检流程,以及风力发电机组检修信息的存储与信息的实时交互显示。系统首先用Pro/E和3dsMax构建风机三维模型,然后用三维引擎OSG组织三维场景模型,通过OSG的回调机制仿真了机组的结构功能,演示了风机的运行过程。接着用3dsMax构建了虚拟人模型和动作库,在场景
市场经济高速发展的今天,软件的开发周期时间越短,软件产品质量越好,后续可拓展性越好,所创造经济价值效益越大,所以如何能够加速软件开发时间与提高软件质量,加强后续可拓展性,成为
计算机技术和网络技术的飞速发展,极大的改变了人们的生活方式。在这种大环境背景下,航天航空、工业自动化等产业也迅猛发展,这些领域中,时间同步是一个最基本但又是最重要的环节
时序数据由不同时间点的数据值组成,通过反映数据随时间变化的特征,它已被广泛应用于统计分析学、信号处理、金融数学、气象预测等各行各业。对时序数据分析最直观的方法就是
随着医学成像技术的发展,越来越多的医学图像被应用到医务人员的诊断和治疗过程中。为了更加有效地管理和利用这些图像,研究人员开始关注医学图像聚类。本文首先介绍了医学图像
伴随着3G网络在全世界范围内的广泛部署和不断增长的用户数目,越来越多的业务种类以及越来越大的数据流量使3G网络不堪重负。在无线接入技术中,3G技术与Wi-Fi(Wireless Fidelity