论文部分内容阅读
随着近几年社交网络的迅猛发展,网络用户愈发频繁地在互联网上发表自身的评论和观点,这些评论和观点呈现爆炸式增长,其中包含用户情感等信息,这些信息在舆情监控、商品改进和产品推荐等方面有着重要意义。文本情感分类研究顺应这一发展趋势,成为了一个研究热点。随着社会经济的发展,人们生活水平的提高,旅游客户在关注酒店消费价格的同时,更注重精神层面的感受,更关注服务体验。客户完成体验之后,在网络上发表的评论成为了未来用户选择酒店时的重要参考。而经济型快捷酒店由于价格定位低,分布范围广,成为了人们出游的首选。本文首先通过八爪鱼爬虫工具,从携程网站获取杭州地区如家酒店和汉庭酒店的客户评论。针对原始语料,通过数据清洗预处理等步骤,获得如家酒店评论18685条,汉庭酒店评论19690条。接着在统计词典的基础上,构建自定义酒店领域情感词典,对评论文本进行分词处理,利用分词结果训练词向量。然后将带有情感标签评论的词向量作为输入变量,对TextCNN卷积神经网络进行训练,将训练好的网络模型,对未带有情感标签的评论进行情感分类。得到如家酒店积极评论14547条,消极评论4138条,消极评论占比22.15%;汉庭酒店积极评论14390条,消极评论5308条,消极评论占比26.95%。最后分别对两家酒店各自的积极评论和消极评论文本进行LDA主题挖掘,利用LDAvis可视化结果,分析两家酒店各自的优势和劣势,并提出针对性意见。最终分析结果显示,从研究方法角度来看,TextCNN卷积神经网络在文本分类方面表现十分优异,分类结果显著;LDA主题模型对于分析如家和汉庭两家酒店存在的问题具有独到优势。从酒店发展角度来看,如家和汉庭两家酒店的优势大于劣势,如家酒店的用户反馈优于汉庭酒店。如家酒店的积极评论显示如家酒店设施齐全,分布范围广并且有免费房间升级等服务;消极评论显示除了经济型快捷酒店的共同问题,如家酒店未提供早餐和停车等服务受人诟病。汉庭酒店的积极评论显示汉庭酒店提供接送机服务,环境较为舒适,分布集中在西湖景区;而消极评论指出的问题较多,除了经济型快捷酒店的共性问题,其设施较为陈旧、另外洗护用品不齐全和服务态度差都令用户感到失望。