基于深度学习与主动学习的中医术语识别研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:yng2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医古籍文本中蕴含着丰富的中医临床经验知识,若利用自然语言处理技术对中医古籍进行研究,能够深度挖掘中医领域的文本知识,促进中医知识的整合与创新。命名实体识别作为一种重要的自然语言处理技术可以从文本中识别出关键的命名实体,从而帮助人们快速理解文本中的语义信息并获取相关知识。将命名实体识别技术应用于中医古籍中——即进行中医术语识别,可以便捷地从中医古籍文本中识别出中医术语,从而大大促进现代中医研究者们研究中医古籍的进程,为中医学的文本挖掘和信息检索等研究领域提供支持。中医古籍文本的语法独特而灵活,导致对中医古籍文本进行中医术语识别非常困难,而当前针对中医术语识别的研究非常匮乏,所以如何利用先进的命名实体识别技术解决中医术语识别这一难题是当务之急。目前深度学习模型在命名实体识别等自然语言处理领域中取得了令人瞩目的成果,但是将深度学习模型应用于中医术语识别的相关研究和文献均非常稀缺,因此基于深度学习提出并设计BERT-BiLSTM-CRF模型用于进行中医术语识别。BERT-BiLSTM-CRF模型的设计过程充分结合了迁移学习策略、预训练语言模型以及经典的机器学习模型,在实验中将BERT-BiLSTM-CRF模型与多种基准模型进行性能对比,前者均展示出了非常优越的性能。深度学习模型的特性导致其需要大量的标注样本,但是在中医术语识别任务中将中医古籍文本作为训练样本进行人工标注的成本极其高昂,所以研究了如何将主动学习算法应用于中医术语识别模型和任务中。针对中医术语识别进行主动学习算法的设计,以减少中医术语识别模型BERT-BiLSTM-CRF所需标注样本的数量,从而降低人工标注成本。在实验中将设计的主动学习算法应用于中医术语识别中,达到了显著降低人工标注成本的目的。此外,考虑到常规的基准主动学习算法应用于中医术语识别任务时没有充分考虑样本序列中具体术语的预测情况,提出并设计基于实体粒度的主动学习算法,该算法更适用于中医术语识别等命名实体识别任务。在实验中将基于实体粒度的主动学习算法与基准主动学习算法进行性能对比,结果表明基于实体粒度的主动学习算法相较于基准主动学习算法能进一步减少中医术语识别模型BERTBiLSTM-CRF所需标注样本的数量,从而进一步降低人工标注成本。
其他文献
建立一种用高效液相色谱测定土壤和甘蓝中氟啶脲残留量的定量分析方法。采用乙腈均质提取,用氟罗里硅土固相萃取小柱净化,高效液相色谱检测。方法的线性相关系数0.9998,回收
选用24%噻呋酰胺SC不同剂量和25%苯醚甲环唑EC1200倍液对荸荠杆枯病进行田间药效试验。结果显示:用药3次,每次用药间隔7d,第3次药后7d,24%噻呋酰胺SC1000倍液和1200倍液对茡荠
水稻青枯病是一种水稻生理性病害,该病2012年在合浦县晚稻发生100ha,为害较大,损失较重。为今后更好地指导水稻青枯病的防控工作,笔者经过认真细致调查,现将2012年合浦县局部地区