基于多因素特征的文本分类的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:nbywfcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统对电商评论做分类的方法使用词袋模型或者简单的提取文本TF-IDF特征方法使用SVM或者传统机器学习模型对评论文本进行分类,近些年尝试单一使用Word2Vec词嵌入等静态词向量作为表示使用LSTM等神经网络模型对文本进行分类,虽然都有一定的效果,但还是无法满足用户与商家对准确率的要求。本文对词向量表示和分类模型方面做了很多尝试,本文主要工作内容如下:(1)文本同时使用商品品论文本和非文本特征,文本同时使用商品评论文本和评论的点赞数、追加评论数等非文本信息,并在非文本特征基础上添加从文本信息中提取的TF-IDF特征与这些非文本特征信息结合作为非文信息附加的额外特征,并使用Lightgbm模型对这部分特征进行分类,并作为基于多维特征因素模型的重要一部分。(2)文本使用多种词向量作为文本表示。相较与以往单一使用一种词向量作为词语的表示,文本同时使用Word2Vec和GloVe两种词向量作为文本的表示,并使用在同一中分类模型下实验验证使用混合词向量模型相较于使用单一词向量F1值和ROC值提升1.7%左右。(3)文本使用了动态词向量。使用静态词向量一个词对应一个固定的词向量,会造成歧义的问题,文本使用Elmo语言模型生成动态词向量,动态词向量根据上下文的不同,将某个词在不同的语境下映射到不同的向量中。文本实验验证了使用Elmo动态词向量相较于使用静态词向量的优势。在文本分类任务上使用Elmo动态词向量能将F1值和ROC值提升1%左右。(4)文本提出了基于多维度特征的文本分类模型。使用Transformer模型作为文本分类模型,并实验对比了Transformer和LSTM分类效果,其中对LSTM输入的词向量加入了Position Encoding位置信息,证明Transformer模型分类的有效性,并提出了基于多维度因素特征的文本分类模型,将评论文本信息构建的TF-IDF特征和非文本信息做特征融合,并使用Lightgbm模型做分类,基于Elmo生成动态词向量使用Transformer作为分类器,并将这两种模型进行融合,构成基于多因素特征的文本分类模型。并在实验中证明了基于多因素特征的文本分类模型的准确性,F1值和ROC值都能达到0.94以上。
其他文献
内燃机发电机作为内燃机型联供系统的核心设备,用户电负荷变化直接影响系统的运行性能。以历山学院3号能源站为研究对象,进行变电负荷工况下的实验测试与模拟研究。结果表明:
超过35岁高龄产妇生育与适龄产妇生育相比风险更大,我们在护理工作中,针对高龄产妇的生理和心理特点,做好病情护理、症状护理的同时,做好产妇的心理护理,让产妇在分娩过程中有安定
2006年5月20日,商洛花鼓经中华人民共和国国务院批准列入第一批国家级非物质文化遗产名录。从此,商洛花鼓戏才走出商山洛水,从寂寂无名完成扬名四海的蜕变。国内对于商洛花鼓戏的研究相对也多了起来,但与其他地方小剧种来说不算多,研究的面也相对的单一,集中在花鼓戏的不同侧面,比如具体单一到商洛花鼓戏的某一作品,某一方面,或者某一作品的某一方面,或者是相对宏观的不够深入的研究商洛花鼓戏的文化意义、价值承载
介绍远控智能燃气表运行系统的功能结构,从表端信息安全和通信信息安全两个方面对远控智能燃气表的信息安全进行分析,指出远控智能燃气表表端信息易受到人为的物理攻击和软件
调研各国的NO_x排放标准,分析我国NO_x排放标准与国外标准的差距,简介天然气低NO_x燃烧技术基本原理。分析国内外天然气低氮氧化物燃烧技术的研究现状和发展趋势,提出建议。
基于列车动力学和道岔动力学理论,建立可考虑整体道床12号交叉渡线道岔钢轨型面变化的列车道岔耦合动力学计算模型。用数值模拟方法分析动车组和货车以50 km/h侧向通过该交叉
随着知识经济时代的到来,图书馆的教育职能越来越显得重要.高校图书馆有着丰富的教育教学资源,利用高校图书馆现有的优势,在履行教育职能的形式上提出了几点看法.
教学与科研是高等学校各学科的两项重要任务,只有同时重视两者并将其有机结合和合理安排,方能带动学科各项工作,促进学科健康有序发展.