基于特征向量构建的文本分类方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:yongzhujushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。(2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题,本文提出了一种基于STL-fastText的文本分类模型。首先,在TF-IDF算法基础上提出了基于相关性的低频词加权算法;其次,将整个语料库作为LDA模型的输入,对文本内容进行主题分析以便学习其主题词分布,将所得结果作为低频高区分度特征的补充;最后,对fastText模型的输入层进行词典重构,将特征补充后所得新词典作为隐藏层的输入,完成STL-fastText模型的构建。实验结果表明,相同环境下与其它同类模型相比,基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。
其他文献
文化产业作为低碳经济内容,近年来蓬勃发展。2008年以来宁夏文化产业凭借特色资源优势,发展迅猛,但与文化产业大省相比还有较大差距。"十二五"期间,宁夏要将文化产业培育成区
本文建立了以I3紫外间接光度法测定水中溶解氧的方法.方法快速、简便、准确、选择性和灵敏度均较高.绝大多数有机物、无机物对本测定都无干扰.对混浊、澄清、有色、无色水样均可直
随着网络直播的兴起,大学生的网络直播现象值得关注。从现状来看,大学生的网络直播行为因主体属性差别而呈现差异性,因广告植入效应而带来较高认知度,因直播手段便捷而具有较
随着城市居民生活方式及娱乐消费行为的变化,城市游憩功能在不断地健全和发展。文章在深入研究此变化的基础上,引入同心圆结构模型和一阶自回归模型来研究居民休闲娱乐消费行
21世纪以来,我国的探月工程发展迅速,采集月面直到月面以下2米深处的月壤受到探月工程关注。钻头中的硬质合金刀具和钻头基体的连接问题就成为采集任务的关键问题,本课题主要
提取平潭县石厝建筑的元素、借鉴当地梯田交错递减的元素融合到建筑里面,将平潭排塘兜建筑传统的横梁结构以及开窗结构等进行有机结合,制定了一系列符合当地以及外商审美要求
随着高精度产品需求的日益提高,改善机床精度在制造业中是非常重要的一个目标。从汽车产业到航天航空,从消费产品到医药产品,三轴机床和检测仪在现代各个领域都有广泛的应用
背景与目的:NOR1是与鼻咽癌密切相关的抑瘤/易感基因候选者之一,本实验旨在构建NOR1基因原核表达载体,在大肠杆菌中表达并纯化NOR1基因所编码的蛋白.方法:抽提人鼻咽正常组织
TB6钛合金是一种亚稳定β钛合金,因其具有高的比强度、良好的断裂韧性、较低的锻造温度、以及良好的淬透性能和抗应力腐蚀能力,故广泛运用于航空锻件、生物医药和体育用品。T
作为轧机的关键部件,轧辊在轧制板材时受到热、力的循环作用,表面会产生氧化、磨损等失效,严重影响轧钢的质量和生产效率。本文利用激光作熔覆热源,结合原位自生技术,用钛铁