论文部分内容阅读
随着互联网的高速发展,网络社交信息爆炸式增长的同时也带来了网络舆情分析的问题。传统的网络舆情分析模式采用的是词库的方式,语料直接与词库进行比对后进行判断。这种方式由于中文的复杂性,例如存在近音词、同义词、缩略词、暗语等非规范中文表达,使得舆情分析的效果不佳。结合深度学习来对语料进行处理,可以有效的提高对非规范中文表达进行分析时结果的准确性。
本文根据这一方法,深入研究基于深度学习的自然语言处理,以求在分析自然语言的词相似性中得到更准确的结果,并结合这一方法开发用于网络舆情分析的深度学习自然语言处理系统,本文研究内容主要包括以下部分。
基于python的Scrapy网络爬虫研究。本系统将使用网络爬虫获取网络实时语料数据保证数据库的时效性,通过这种方式可以有效的提高自然语言处理对非规范性语言的覆盖程度,提高分析的效果;
搭建语料数据库服务器。本文在处理数据的过程中需要不断地更新现有的语料库,所以需要搭建语料数据库用于存储实时的语料数据,并在数据库中完成对语料数据的初步处理,通过正则表达式和分词得到可以用于深度学习的数据;
基于TensorFlow的自然语言处理深度学习算法设计与实现。本文采用了一种动态权重多模型相融合的词相似性分析方法,根据语料的特点选取不同的语料库,并结合多种模型进行计算,提高词相似性分析的准确性,使得自然语言处理所得到的结果对网络舆情分析有更好的支持度,本文通过实验发现多模型相融合的方法得到的结果比单一模型更好,在使用NLPCC-ICCPOL2016中文词语相似度比赛中PKU-500数据集作为评价的参考标准时,本文所采用动态权重多模型融合的词相似性分析法,获得0.568的斯皮尔曼等级相关系数,与该比赛第一名的结果相比提高了9.6%,因此多模型相融合的方法可以提高计算词相似性时的准确率;
整合以上各部分构建网络舆情分析系统。搭建出的网络舆情分析系统将实现自动实时收集网络语料并加入语料库进行深度学习计算,不断更新计算结果,提高网络舆情分析系统的时效性,同时提供词相似性查询功能,使用者可以通过该系统直接得到两词相似性的量化结果。
本文根据这一方法,深入研究基于深度学习的自然语言处理,以求在分析自然语言的词相似性中得到更准确的结果,并结合这一方法开发用于网络舆情分析的深度学习自然语言处理系统,本文研究内容主要包括以下部分。
基于python的Scrapy网络爬虫研究。本系统将使用网络爬虫获取网络实时语料数据保证数据库的时效性,通过这种方式可以有效的提高自然语言处理对非规范性语言的覆盖程度,提高分析的效果;
搭建语料数据库服务器。本文在处理数据的过程中需要不断地更新现有的语料库,所以需要搭建语料数据库用于存储实时的语料数据,并在数据库中完成对语料数据的初步处理,通过正则表达式和分词得到可以用于深度学习的数据;
基于TensorFlow的自然语言处理深度学习算法设计与实现。本文采用了一种动态权重多模型相融合的词相似性分析方法,根据语料的特点选取不同的语料库,并结合多种模型进行计算,提高词相似性分析的准确性,使得自然语言处理所得到的结果对网络舆情分析有更好的支持度,本文通过实验发现多模型相融合的方法得到的结果比单一模型更好,在使用NLPCC-ICCPOL2016中文词语相似度比赛中PKU-500数据集作为评价的参考标准时,本文所采用动态权重多模型融合的词相似性分析法,获得0.568的斯皮尔曼等级相关系数,与该比赛第一名的结果相比提高了9.6%,因此多模型相融合的方法可以提高计算词相似性时的准确率;
整合以上各部分构建网络舆情分析系统。搭建出的网络舆情分析系统将实现自动实时收集网络语料并加入语料库进行深度学习计算,不断更新计算结果,提高网络舆情分析系统的时效性,同时提供词相似性查询功能,使用者可以通过该系统直接得到两词相似性的量化结果。