基于神经网络的维吾尔文词向量表示方法及其应用研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:voidemort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据表示是自然语言处理的基础任务,传统的数据表示指的是通过人工整理特征信息的过程。近几年来,随着深度学习和表示学习的普遍使用,基于神经网络的数据表示在各领域表现出色。在自然语言处理任务中词袋模型作为主要的语义表示方法,该方法由于数据量的欠缺而导致数据稀疏问题。因此,早期的方法一般使用在解决某一类问题,应用层面具有极大的局限性。本文将对神经网络词表示技术进行总结与分析,并将该技术用到维吾尔语形态归纳技术和文本情感分类任务中。在研究词向量表示方法时,对现有的词表示技术进行了理论分析和实验评估。在理论上,研究了Skip-gram模型与CBOW模型的理论体系,并对其进行了实验结果的对比。实验过程中,从模型,语料和参数角度分析了词表示技术。用上述两种模型生成词向量后,对这两类模型在语义、形态和神经网络分类任务中的表现来评价实验结果。由于语料规模有限,本文实验结果呈现CBOW模型的性能比Skip-gram的强。基于无监督学习的形态归纳方法而言,在整个过程中只需要对语料进行训练,而不需要额外的形态语言学知识。利用词向量根据语义相似性和形态上的不同评价差异规律,而且在语义上的关联来评估形态变换过程中训练出的形态规则,并将此规则用到建立形态分析器上。用1000个手工整理的形态切分测试集来评估形态分析规则,最终得到了81%的精度。基于神经网络情感分类任务中,对CNN模型,LSTM模型和BiLSTM模型等进行了理论分析和实验评估。情感分类任务中,首先,在预处理部分生语料进行了词干提取、降噪和维度下降等操作,其次,引入预先训练的词向量,使模型能够获取词与词之间的语义信息,从而弥补和增加语料包含的情感特征信息。实验证明,在相同的情感分类语料上,预处理阶段的形态归纳和词向量初始化模型输入后的CNN模型提升1.8%,LSTM模型提升3.7%,BiLSTM模型提升3.9%,总体上体现了本文分类方法的有效性。
其他文献
在西方发达国家,税务部门把现代管理学的风险管理理念和方法引入税收管理领域,通过科学有效地配置税收管理资源对其税收风险进行研究,形成了较为成熟的理论体系和丰富的实践
<正>一、中小企业融资政府支持体系构成要素在政府支持区域经济增长中,湖北中小企业在承接产业转移、促进产业结构调整和居民就业、推动科技创新等方面表现出极大的生命力,然
目的:探索围生期产妇健康素养结构,编制适合我国的围生期产妇健康素养量表,并进行信、效度评估。方法:以卫生部2012颁布的《母婴健康素养----基本知识与技能(试行)》55条为蓝本
随着利益相关者理论研究的不断深化,并运用该理论解释企业社会责任信息披露行为。对利益相关者的权力是否影响企业的披露策略,不同国家利益相关者的差异对于社会责任披露水平
目的:对旋转铰链与固定铰链型膝关节假体治疗膝部肿瘤的临床效果进行Meta分析。方法:检索Pubmed、EMBASE、CNKI、维普和万方等文献数据库,搜索国内外截止于2014年1月所有对比旋
目的观察醒脑开窍针刺法对重度颅脑损伤(STBI)急性期患者临床疗效和血浆中神经损伤主要标志蛋白:S-100蛋白(S-100B)、神经元特异性烯醇化酶(NSE)、髓鞘碱性蛋白(MBP)、胶质纤
本文以“农村信用社管理主体”为研究对象,通过对农村信用社管理主体设置和调整历史的纵向考察,探求我国农村信用社的特殊性质,并厘清国家(中央政府)、管理主体与农村信用社
膜结构又叫张拉膜结构,是以建筑织物,即膜材料为张拉主体,与支撑构件或拉索共同组成的结构体系,它以其独特的建筑造型,良好的受力特点,成为大跨度空间结构的主要形式之一。膜
随着体验经济时代的到来,电子商务的冲击,传统的百货与购物中心已无法满足人们日益增长的精神需求,体验消费成为市场竞争关注的焦点,体验式商业中心逐渐成为购物中心的发展趋
高等院校的教学档案管理工作十分重要,在教学改革和教学评估中都发挥着积极作用。在新的形势下,我们应该努力探索教学档案管理模式的更新:保证教学档案的完整规范,做好基础性