【摘 要】
:
随着生命科学的蓬勃发展,化学医药领域的相关文献呈现指数级增长态势。从这些海量的非结构化医学文献中抽取出结构化的、有组织的化合物信息,有助于医药及相关领域人员开展药品研发工作,进而促进整体制药工业的技术革新。其中,化学命名实体受到医药学研究者的广泛关注,是医学文献信息分析的主要载体,相关命名实体识别成为目前一个重要的科研课题。在现有的命名实体识别(Named Entity Recognition,N
论文部分内容阅读
随着生命科学的蓬勃发展,化学医药领域的相关文献呈现指数级增长态势。从这些海量的非结构化医学文献中抽取出结构化的、有组织的化合物信息,有助于医药及相关领域人员开展药品研发工作,进而促进整体制药工业的技术革新。其中,化学命名实体受到医药学研究者的广泛关注,是医学文献信息分析的主要载体,相关命名实体识别成为目前一个重要的科研课题。在现有的命名实体识别(Named Entity Recognition,NER)方法中,带有条件随机场层的长短期记忆网络(Long Short Term Memory with a Conditional Random Field layer,LSTM-CRF)是最先进、最常用的方法之一。这种有监督学习方法通常需要大量的标记语料,然而与专业领域文献高度相似的标记语料库却非常有限,这其中就包括化学医药领域的药品专利文献。这种情况下,有监督学习模型就无法准确地识别相关实体。为解决上述问题,本文提出了一种基于双向长短期记忆网络与词相似度联合并带有条件随机场(BiLSTM-WS-CRF)的半监督命名实体识别方法。该方法首先对各类型实体的词向量进行无监督聚类,将获得的聚类中心作为参考向量,并选择合适的相似性度量方法,衡量每个输入词与不同标签类型的关系;然后,将该关系的向量表达与BiLSTM输出的特征向量进行结合,计算置信分数;最后,将分数输入CRF层,得到符合标记策略的预测标签。通过上述过程,本文所提方法不仅引入了无监督学习特征引导标注过程,而且保留了有监督BiLSTM-CRF模型综合考虑长短期依赖关系与标签依赖关系的优点。实验研究表明,与传统的BiLSTM-CRF模型及其他常用的半监督方法相比,该方法在解决化学医药等专业领域的命名实体识别问题上有明显的优势,可大幅减少高度相似实体中一部分没有被识别的情况。为了便于相关研究人员进行文献读取和分析,本文还设计了一个药品专利命名实体识别的系统软件,实现了包括文本处理、词向量训练、命名实体识别、实体可视化在内的一系列功能,可为药品研发工作提供信息支撑,有助于缩短药品研发周期。
其他文献
1病例资料病例1,女,48岁,因咳嗽、咳痰、痰中带血2个月入院,胸部CT及纤维支气管镜诊断为右肺鳞癌。给予EAP(足叶乙甙、吡柔比星、顺铂)方案化疗。化疗第1天给予0.9%氯化钠250ml加足叶
消毒供应室应具有严谨的科学性和技术性,它每日向各临床科室提供无菌医疗器械各种敷料的质和量,都直接影响到医治病人的成功,不发生感染,使患者早日康复.现将我们具体做法介
【摘 要】近年来,伴随着课程改革的不断发展,专家和学者们越来越深刻地意识到了培养学生英语能力的重要性,并对初中英语教学给予了高度关注。同时,网络教学资源凭借其适用性、灵活性和针对性强等特点,赢得了众多学校和教师的青睐。伴随着社会信息化程度的不断提高,利用网络资源进行教学创新的重要性越来越显出其重要性。 【关键词】初中英语;网络资源;阅读教学 【中图分类号】G623. 31 【文献标识码】A
【摘要】在小学数学教学中,教师应通过课堂问题的形式检查学生学习情况,引导学生思考和研究数学知识,加强师生互动,提高课堂教学有效性。然而,部分教师在课堂问题设计时存在较大的随意性,导致小学数学课堂教学质量下降。如何提高数学课堂问题设计有效性,笔者认为应结合小学生心理特点,精心设计数学课堂问题,激发学生的学习兴趣,以期提高小学数学课堂教学质量。 【关键词】小学数学 课堂问题 有效性 【中图分类号】
高血压病、冠心病、糖尿病、恶性肿瘤(统称四种慢性非传染性疾病,简称"慢四病")已成为人类最主要的死亡因素.我院从1998年开展社区卫生服务以来,以中城、北城、西城3个社区医
目的观察心肌挫伤患者在48小时内心肌标志物含量的变化及判断心肌挫伤的程度.方法对28例心肌挫伤患者在48小时内不同时间分别采集静脉血,测定肌红蛋白(Myo)和肌酸激酶同功酶
监督学习的精度极大依赖于标签样本数量,人工标记样本的成本很高,利用大量无标签样本及有限数量标签样本的半监督学习成为提升算法精度的有效方法。深度学习的生成模型仅利用输入样本本身作监督,在半监督学习中可以帮助学习器利用大量无标签样本数据学习样本的分布情况,成为半监督学习领域的新方法。本文在详细研究了对抗自编码器(AAE)模型结构及训练过程后发现:在半监督分类任务中,模型具有两个不同的判别器,两种约束在