基于深度学习的数学专业语料库词性标注算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:longyilang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算能力的大幅提高和互联网技术的飞速发展,人类对自然语言处理的研究不断深入.在此背景下,语料库语言学逐渐茁壮成长起来.尤其是近几年来,随着深度学习的崛起,语料库更是成为了神经网络算法得以有效运行的基础.在自然语言处理领域,词性标注是实现自然语言处理任务目标的一个基础环节,也是对文本数据的一个预处理过程,它的准确度将很大程度上影响到后续目标任务的性能.语料库的词性标注准确率越高,语料库的规模越大,神经网络模型的性能就越好.故词性标注语料库的构建与研究逐渐成为了国内外学者的研究热点.数学学科作为自然科学的基础学科,与各行各业的发展都有着密切的联系,它的发展对于我国科技的进步起着至关重要的作用.而目前国内外尚没有专门的带有词性标注的数学专业语料库,这严重影响了数学学科文献的机器翻译及其他自然语言任务的实现.因此,本文以词性标注为主,针对数学科技文献数据构建了一个具有一定规模的词性标注语料库.本文设计了构建数学专业词性标注语料库的算法.首先,我们将神经网络,条件随机场进行结合,构建神经网络框架;其次,我们借助新闻词性标注语料库数据,不断添加数学数据到训练集,测试集,验证集中,同时去掉相同句数的新闻数据,之后使用新闻和数学的混合数据去训练新的模型;最后,神经网络模型在多次迭代之后,我们得到一个对数学数据词性标注效率较高的模型以及一个数学专业词性标注语料库.语料库的准确率为98.36%,而现存的新闻词性标注语料库的准确率介于94%-98%[12]之间,由此可见,我们构建的词性标注语料库的准确率是非常高的.以此语料库为基础,我们可以进行自然语言处理的其他任务研究.本文使用训练过程中产生的模型在纯数学数据上进行了测试实验,实验结果显示,随着模型不断优化,新产生的模型学习到的数据分布逐渐由新闻数据分布转变为数学专业数据的分布,在测试数据上解码效率越来越高,直到模型解码正确句子占全部数据比例不发生变化,则得到最优模型.最优模型在解码纯数学数据时,它的解码效率为69.85%(以句为单位),这比纯新闻数据训练的模型解码纯数学数据的解码效率(为12.82%)要高很多.通过对比分析可得,我们得到的最优模型学习到了数学数据的分布,使用它去标注数学专业文献原始语料,通过特定的阈值筛选,可以得到标准的词性标注语料库数据,从而避免了人工标注的高成本,低效率的缺点.除此之外,文章中我们设计的构建数学专业文献词性标注语料库的算法,也为其他学科科技文献语料库的构建提供了借鉴.
其他文献
根据《建筑地基处理技术规范》(J220-2002)(以下简称规范)对水闸地基采用水泥土搅拌法进行地基处理,有很多成功的例子,也有失败的教训。本文根据涡河近期治理工程在淤泥地基上新建
<正> 骆宾王,字观光,婺州义乌人。骆宾王的字、号,两《唐书》本传皆无明载。《金华府志》、《义乌县志》以及义乌《骆氏宗谱》收录的众多明、清人撰写的骆宾王传记、碑文,均
国际私法中的意思自治原则发源于16世纪法国人杜摩兰。随着人权意识愈发受到重视与保护,意思自治原则在我国私法体系中有着举足轻重的作用,《中华人民共和国涉外民事关系法律
反洗钱可疑交易行为报告制度的实施存在监管当局与被监管者的目标冲突、金融机构认识不一、报告的边际信息价值随报告数量增加而递减、制度安排缺乏成本效益性等问题。其主要
在软件研发项目中,前期的需求分析对于产品的成功与否以及后续阶段能否顺利开发有着至关重要的影响,若需求分析充分,则后期开发顺利,成本可控,进度可控,质量可靠,否则会造成"
通过对处于干热河谷的四川省汉源县唐家铅锌矿区及周围污染农田进行优势植物采样分析发现,垫状卷柏(Selaginella pulvinata)的地上部分、根系铅(Pb)积累量分别为672.10mg/kg和313
国家历来都高度重视青少年一代的健康成长,为促进我国青少年体质健康发展,营造良好的社会环境,通过有效的的法律法规纲领性文件的制定与实施,并随着时代发展不断调整以实现促
本研究采用自编的小学生课堂自我表现量表对251名3-6年级的小学生课堂自我表现状况进行测量,并考察了课堂自我表现与学生的自我概念和学业成绩的关系。结果显示:(1)数学成绩