论文部分内容阅读
随着电子商务的飞速发展,人们越来越多的在网络中发表自己对每个商品质量、客户服务态度以及物流速度的观点、看法,这些数据是有价值的:这些数据能给客户选择某个商品时一些参考,而且也能让商家改善自己的服务从而更好的获取用户,甚至还能从这些数据中发现新的需求、新的商机。但这些数据通常都是非结构化的文本数据,不便于计算机的自动的归类、分析、处理。将这些文本数据进行一定的建模从而更容易的提取它的特征是一个很重要的课题。目前,传统的情感分析的方法主要是要人工的构建情感词典以及针对不同领域的语料选择不同的特征选择方法,这显得比较繁琐、费时费力。本文在分析、总结传统情感分析方法的优缺点的基础上,使用深度学习的方式来自动化的提取文本的情感特征。具体而言,就是使用训练好的卷积神经网络提取评论的特征,然后将其送给训练好的支持向量机完成文本的情感分类。这么设计的主要原因是结合了深度学习自动提取特征以及支持向量机良好的分类性能的优点。另外,还做了该方法与传统机器学习方法进行情感分析的对比试验,来验证该方法的理论的正确性,实验显示说明该方法在评论文本情感分析的准确度有了2个百分度的提高。最后,根据提出的情感分析的思想,开发设计了一个美团外卖评论文本情感分析系统,它可以实时的爬取美团外卖系统中的评论文本并进行分析。它完成语料的收集和预处理、词向量的训练、情感模型的生成以及情感分类的功能,并且可以清晰的展示文本情感分析后的结果,使用方便。该系统主要包含以下功能模块:1、语料的收集与预处理模块:语料的收集需要编写一个爬虫,用广度优先搜索的算法搜索网页,然后解析网络提取内容并保存在本地。语料收集好后对语料使用分词工具进行分词、去停用词处理。2、情感模型的训练模块:使用词向量工具word2vec来训练维基百科中文语料来获取词向量模型,然后用预处理之后的语料且标记好的语料来训练卷积神经网络,生成情感模型并保存。3、文本的情感态度分析模块:文本情感态度的分析先要完成支持向量机的训练,然后用生成的情感模型处理要预测的文本,提取文本的特征,最后用训练好的支持向量机对特征进行分类获取文本的情感极性。