论文部分内容阅读
随着信息技术的飞速发展和Internet大规模的使用,人们的生活方式得到了巨大的改变。越来越多的消费者可以通过网络平台来发表自己对某种产品的看法,这些评论信息直接或间接的表达了其对各种产品的态度和情感。如果能够合理分析并利用这些产品评论信息,就可以给商家、消费者等带来意想不到的好处,最终促进社会经济的发展。通过解析网络平台上获得的评论信息,就可以得到大量半结构化或非结构化的文本。而文本挖掘技术,正是处理这种大量半结构化或非结构化文本最有效的手段。文本挖掘技术在处理网络产品评论中的最终目的是文本情感分类,就评论文本而言即消费者对于某种产品的褒贬。在文本情感分类的处理过程中,最关键的就是选择合适的分类方法。本文选择KNN算法作为分类方法。但是,传统KNN分类方法存在着计算量大,不均匀密度下分类偏差大的问题。因此,本文设计了一种新的CPKNN算法。实验证明,与传统KNN算法相比,该算法的准确率和效率都明显提升。本文主要研究工作如下:(1)分析研究了Apple MacBook Air笔记本页面的DOM树结构,根据URL抓取规则,使用Java爬虫技术,采集8万条评论数据。通过文本分词、去停用词、特征选择与特征加权等步骤,将这些评论数据处理为待训练语料。(2)对KNN算法进行改进,提出了改进的CPKNN算法。CPKNN算法会对不均匀的训练样本进行循环裁剪,最终使得在测试样本领域内的样本是相对均匀的,从而提高算法的准确率;其次结合使用投影寻踪理论,来获得更具代表性的样本,从而提高KNN算法的分类效率,并对k值的选择做了相关实验。(3)结合改进的CPKNN算法,设计出细粒度的文本情感分析模型,并实现了产品评论挖掘系统。该系统可以抓取指定网站网页上的相关评论,显示分词信息,提取相关特征词,将产品评论进行情感分类,并以图形化界面显示出来。系统运行结果表明,文本挖掘技术在产品评论中的应用是有效可行的,可以分析出消费者对产品的情感倾向。