基于深度学习的中文标点符号审校算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:liuyr821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标点符号审校是中文文本审校的一个重要组成部分,标点符号的误用会对文本的可读性造成影响。由于标点符号的使用和语义息息相关,传统的机器学习方法很难学习到语义信息,在标点符号审校问题上的表现差强人意。而深度学习可以在很大程度上利用上下文信息,近年来在自然语言处理领域得到了广泛的应用,并在语音识别和文本分类等问题上取得了重要进展。本文将标点符号审校问题转换为分类问题,并用深度学习方法对其进行研究,主要工作包括以下两个部分:(1)提出了一个LSTM-CNN标点符号分类模型,该模型包括多层LSTM和三个并列的具有不同卷积核的CNN,其中采用多层LSTM可以实现对文本信息进行更好的抽象,以提取出更高层次语义方面的信息,而采用多个并列的CNN是为了获取不同维度的文本特征。由于深度模型中的超参数很多,本文通过多组对比实验确定的LSTM-CNN模型中几个重要超参数的最优值。同时为了验证LSTM-CNN模型的有效性,利用KNN、SVM以及朴素贝叶斯分类器等机器学习方法进行了对比实验,实验结果表明LSTM-CNN模型在标点符号分类问题上的表现要优于机器学习方法。(2)提出了一个基于注意力机制的LSTM-CNN标点符号分类模型。该模型在LSTM层和CNN层之间加入了改进的注意力机制,使得LSTM的不同时间步的输出具有不同的注意力权重,对句子中重要的单词分配了更多的注意力,更有利于标点符号的分类。本文通过对比实验确定了attention-size的最优值,并且实验表明基于注意力机制的LSTM-CNN模型要优于LSTM-CNN模型和传统的机器学习算法。为了验证标点符号的下文信息对分类的影响,本文使用标点符号的上下两个句子共同作为基于注意力机制的LSTM-CNN模型的输入进行了实验,结果表明加入下文信息后,模型的性能得到了提升。
其他文献
我们与学生的沟通是我们与学生交换思想,是教书育人行之有效的手段。本文通过充分了解每一个学生;尊重每一个学生;真诚地对待每一个学生;赏识每一个学生等方面阐述了与学生沟
近年来,伴随着科学技术的发展和我国人民生活水平的提高,我国的民用建筑电气的设计建设也不甘落后跟上前进的步伐。伴随工业发展速度的日新月异,对能源的消耗量也急剧增加,对于处
1695年,广东高僧大汕受"大越国王"阮福週之邀前往越南南部阮氏辖区弘法,并撰成《海外纪事》一书。大汕在书中将阮氏治下描述为独立的"大越国",认为前之"安南国"即今之"大越国
控制是指根据事先确定的计划和标准,监督检查有关行为主体的活动及其结果,发现偏差并据以调整行动或计划,以实现既定的计划目标。我国《企业内部控制基本规范》将内部控制定义为
为了研究煤粉在O2/H2O气氛下SO2的生成特性,选取3种特定含硫量和Ca/S摩尔比的煤粉,在沉降炉燃烧系统上对其在O2/N2、O2/CO2和O2/H2O 3种不同气氛下SO2生成与煤灰自固硫特性进
唐朝是我国两千多年漫长封建历史中一颗耀眼的明珠,无论是政治、经济,还是文化等方面均取得了十分耀眼的成绩,在此基础上,唐朝体育获得了空前快速的发展。这一时期,女性作为
毛付根,厦门大学管理学院会计系教授,1985年毕业于厦门大学会计系,1988年获厦门大学经济学(会计)硕士学位,1994年获厦门大学经济学(会计)博士学位。研究生毕业后留校任教至今,先后任厦
我厂需要买两辆办公用途的小汽车,增值税进项税额是否可以抵扣?如果可以抵扣需要注意哪些事项?
为了研究仙鹤草的收敛止血功效和抑菌作用,本实验通过构建大鼠皮肤损伤模型、烫伤模型,在探讨添加溶菌酶对仙鹤草新鲜和冻干粉末对两种大鼠模型的收敛止血功效和保存时间影响
壮族民间集体仪式中仍存在的裸俗与岩画上壮族先民在参加集体祭仪,都表现为一种征服自然的力量表征和崇神尚祖的原始虔诚之美的文化内涵,壮族先民卉服习俗背后的宗教意识,是