论文部分内容阅读
自然语言处理领域中的许多任务,都需要建立在准确有效的命名实体识别结果上。命名实体识别研究的发展常常与自然语言处理技术相互制约。中文命名实体识别的研究进程大大晚于英文命名实体识别,加之中文因自身没有明确分词符的独特结构特点,也加大了中文命名实体识别的难度。医学领域繁多的专业词汇和句法特征,更加提高了该领域的中文命名实体识别的研究门槛。本文通过对目前现有命名实体识别方法的总结,选择在目前较为成熟的基于统计模型的命名实体方法中进行深入研究。并在分析了当前应用于医学领域的基于统计模型的中文命名实体识别方法研究后,发现由于国内尚无公开统一的医学标注语料,这类研究无一例外均采用了各自进行人工标注训练语料的方法。本文受到深度学习领域中,在模型训练时进行fine-tuning的思路启发,提出在开放领域新闻标注语料进行模型训练的基础上,通过医学专业词典对统计模型进行fine-tuning,以使其能够在对中文临床病历的命名实体识别任务中有良好表现。该方法有效减少了在命名实体识别研究前期,为训练模型而不得不进行语料标注的工作量。并且避免了由于人工标注训练语料带来的主观偏差。经实验证明,该模型优化算法对隐马尔可夫模型和条件随机场模型均有效,分别将其准确率提高了 6.8%和10.5%,召回率分别提高了 8.9%和11.1%。最后,在应用中本文基于对1066份现实中文临床病历的命名实体识别结果,利用规则和字典相结合的方法对病历内容进行了关键信息抽取。并利用医学逻辑规则,对关键信息中的潜在信息进行了深入分析。基于上述的实验过程,通过总结探索出一套可行的辅助研究方法。