论文部分内容阅读
作为生物医学信息抽取领域的重要分支,实体关系抽取的作用举足轻重。其中,细菌与其生存环境之间的交互关系抽取可以进一步发现生物之间的关联机制,对微生物学的发展,如食品加工和安全、健康科学和废物处理等领域有着非常重要的意义。然而目前现有的抽取方法性能并不是十分理想,因此如何提高细菌与其生存环境的交互关系抽取的性能是本文研究的重点。在采用基本特征的基础上,加入词向量、布朗聚类特征、外部资源特征、实体类型特征进行关系抽取,构建了一个基于SVM的简单高效的关系抽取系统。首先,考虑到生物医学特点,采用面向生物医学文本的词向量作为特征,从背景语料中学习潜在的语义信息;然后,通过布朗聚类方法将相近的实体对聚为一类,并将聚类结果表示为特征;接下来,将物种和术语信息作为外部资源特征加入到特征集合中;最后,由于实体在句子中出现在不同的位置往往有不同的含义,例如,出现在标题和正文的实体重要程度是不同的,因此将此信息作为特征。在2016年BioNLP-ST的BB任务测试集上获得了49.11%的F-值。虽然SVM方法可以利用领域专家总结的一些特征,但这种方式不能学习到深层的语义信息,而深度学习方法可以通过迭代训练获得深层的语义信息。因此,本文采用深度学习的方法进行关系抽取,提出了一个基于动态拓展树的双向LSTM框架(DET-BLSTM),首先,利用解析器解析获取最短路径树,针对语料进行分析,将路径长度过短的树进行动态拓展。然后,将词向量、词性向量和距离向量拼接后的结果作为输入。接下来,构建双向LSTM分别从动态拓展树的前向和后向获取信息,并使用Softmax进行分类。最后,综合考虑到浅层、深层两种方法的优缺点,将两者进行结合,即利用SVM系统的预测结果进行后处理,在测试集上获得58.15%的结果,获得了目前在该数据集上最好的结果。综上,本文分别采用了浅层和深层两种不同的方法进行关系抽取,最后为了利用领域专家经验提供的知识,将浅层方法的预测结果对DET-BLSTM的预测结果进行后处理。最终结果比目前最好系统的F-值提高了2.35%。