在线评论的观点要素情感和挖掘研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:ssl1987310624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线评论包含许多关于商品及消费者的潜在内容,通过挖掘其中文本核心信息,能够有效帮助消费者接收商品各方面的优缺点以更快的做出消费决策,以及提供商家商品需要改进的建议和分析消费者对商品的关注点。在线评论数据本身是文本数据,从文本数据中抽取有用的知识是文本挖掘的任务。文本挖掘需要将非结构化的数据转为可用的结构化数据,同时应用模型对文本进行建模,故其本身是一个交叉学科,它涉及语言学、统计学、计算机等知识领域。  本文主要通过对文本的挖掘技术,抽取在线评论的特征词,并训练相应的分类模型对文本评论进行情感分析,最后应用实际在线评论文本并依此分析该商品的评分情况,提供给消费者和商家一定产品建议。  文本挖掘在很早就有学者进行研究,最开始是使用密集人工劳动的方式进行文本分析挖掘。而随着这几年互联网的发展,文本数据的不断积累后,许多商家意识到文本数据的价值。同时,新技术的不断发展,如机器学习、统计学习在近二十年的快速发展下,为文本挖掘转为计算机自动化过程成为可能。当前,机器学习已成为文本挖掘的主流方法。故而,在本论文中,将使用机器学习方法对在线评论进行文本挖掘。  在这几年来,智能手机产品层出不穷,产品更新换代频繁,每个手机系列基本一年出一次新。对于消费者而言,这增加了选择合适产品的难度;对厂商而言,竞争增加。在线评论可以提供很多关于产品特性的信息,最泛的如手机好不好,具体的有关于手机某个性能的,如摄像功能很清晰或模糊。本文针对手机数据,挖掘对手机评论的各项产品特性评价信息,并对消费者和厂商提供一定建议。  在具体的手机在线评论挖掘中,包括两个步骤,一是对商品评论对象的挖掘,这归类于对方面词(aspect)、情感词的挖掘;第二步是对商品评论对象的情感倾向分析。第一步传统上使用TF-IDF等特征抽取方法,本篇文章将采用LDA主题模型、word2vec、聚类以及TF-IDF等特征抽取方法对方面词及情感词进行抽取及聚类。抽取特征词、形成词集后,将文本情感分析问题转为分类问题,以前面抽取的特征词作为变量应用三个分类模型。三个模型分别为Logistic、随机森林、Xgboost,其中Logistic模型效果最好,同时应用了前面抽取的特征词作为变量提升了模型效果。最后将Logistic模型应用在具体商品的文本评论上,分析得到最后的评分与实际相符。
其他文献
从应试教育到素质教育,再到创新教育,直到今天各种各样的新教改理念,看起来五彩缤纷,其实核心目标都是充分体现学生的主体地位,把课堂还给学生,让他们成为课堂的主人。 From
他嫉恶如仇,不畏阻力,对见利忘义者不留丝毫情面;他心怀大爱,情牵百姓,对服务对象常伸出无私援手;他一生质朴,尽忠尽孝,“对得起组织,对得起亲人”;他46载的人生平凡而短暂,
改革开放以来,日益严重的城乡差异问题引起了党和各级政府的高度重视,国内学术界也进行了深入研究和探索,形成丰硕的研究成果.本论文主要相对于以往研究的意义在于,探求市场
叶片是植物进行光合作用的主要器官,与植物形态建成有重要关系。旗叶的大小及其与茎杆的夹角直接影响到小麦植株的受光,从而影响到小麦的产量水平。本研究利用比较基因组学的
建设学习型党组织是建设马克思主义学习型政党的基础工程。按照党的十七届四中全会《决定》要求,我省紧紧围绕建设马克思主义学习型政党这一战略任务,牢牢抓住各级领导班子
经济全球化和世界主要国家实力相对变化决定了世界经济格局的演化过程和未来的发展方向.贸易便利化和投资自由化向更深层次发展、 美国主导下的“一体两翼”新世界贸易格局挑
慢性铅中毒是由于在生活中或职业性接触铅烟或铅尘所致的以神经、消化、造血等系统障碍为主的全身性疾病。慢性中、重度铅中毒患者腹绞痛的发生率颇高[1]。 Chronic lead po
在国有企业建立健全与社会主义市场经济体制相适应的教育、制度、监督、改革、纠风、惩处并重的惩治和预防腐败体系,是全面落实科学发展观,推进国有企业健康持续发展的重要保
国际结算业务是中国商业银行目前主要的一项中间业务.掌握国际结算业务的机理、控制国际结算业务的风险,是做好国际结算业务的关键.中国商业银行必须借鉴国际先进的管理经验,
新世纪,伴随着中国加入世界贸易组织,随着金融业逐步对外放开,银行业的竞争更为激烈.为了迎接竞争,把中国商业银行建设成世界一流的银行,必须采取坚决措施,解决商业银行特别