论文部分内容阅读
传统对电商评论做分类的方法使用词袋模型或者简单的提取文本TF-IDF特征方法使用SVM或者传统机器学习模型对评论文本进行分类,近些年尝试单一使用Word2Vec词嵌入等静态词向量作为表示使用LSTM等神经网络模型对文本进行分类,虽然都有一定的效果,但还是无法满足用户与商家对准确率的要求。本文对词向量表示和分类模型方面做了很多尝试,本文主要工作内容如下:(1)文本同时使用商品品论文本和非文本特征,文本同时使用商品评论文本和评论的点赞数、追加评论数等非文本信息,并在非文本特征基础上添加从文本信息中提取的TF-IDF特征与这些非文本特征信息结合作为非文信息附加的额外特征,并使用Lightgbm模型对这部分特征进行分类,并作为基于多维特征因素模型的重要一部分。(2)文本使用多种词向量作为文本表示。相较与以往单一使用一种词向量作为词语的表示,文本同时使用Word2Vec和GloVe两种词向量作为文本的表示,并使用在同一中分类模型下实验验证使用混合词向量模型相较于使用单一词向量F1值和ROC值提升1.7%左右。(3)文本使用了动态词向量。使用静态词向量一个词对应一个固定的词向量,会造成歧义的问题,文本使用Elmo语言模型生成动态词向量,动态词向量根据上下文的不同,将某个词在不同的语境下映射到不同的向量中。文本实验验证了使用Elmo动态词向量相较于使用静态词向量的优势。在文本分类任务上使用Elmo动态词向量能将F1值和ROC值提升1%左右。(4)文本提出了基于多维度特征的文本分类模型。使用Transformer模型作为文本分类模型,并实验对比了Transformer和LSTM分类效果,其中对LSTM输入的词向量加入了Position Encoding位置信息,证明Transformer模型分类的有效性,并提出了基于多维度因素特征的文本分类模型,将评论文本信息构建的TF-IDF特征和非文本信息做特征融合,并使用Lightgbm模型做分类,基于Elmo生成动态词向量使用Transformer作为分类器,并将这两种模型进行融合,构成基于多因素特征的文本分类模型。并在实验中证明了基于多因素特征的文本分类模型的准确性,F1值和ROC值都能达到0.94以上。