基于Hadoop平台和隐马尔可夫模型的生物医学命名实体识别方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:wxpsth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学作为一门交叉性学科经过近年的不断发展,其专业知识量不断增加,与其相关的文本资料也越来越多。这些海量的文本资料中包含着许多有价值的信息和数据,目前基于大数据的生物医学文本挖掘技术的目的就是将这些有用信息从海量数据中提取出来以供研究者使用。生物医学命名实体识别工作是生物医学文本挖掘技术中的关键步骤。针对传统集中式的生物医学命名实体识别方法难以处理海量文本数据的问题,本研究在Hadoop平台上采用分布式计算方法进行命名实体识别模型训练并对大规模数据进行处理。研究过程主要可分为以下两部分:(1)在Hadoop平台上完成HMM模型的参数训练,通过统计训练语料库中初始状态的分布情况,状态与状态之间的转移次数,以及每个状态发射出观察值的分布,得到HMM模型的初始状态概率分布,状态转移概率矩阵和符号发射概率矩阵三个参数。为了验证HMM模型在Hadoop平台上的参数训练效率和命名实体识别性能,使用CRF模型与其进行对比。在Hadoop平台上并行化计算CRF模型中特征函数权重的梯度向量,并迭代计算出最优的模型参数。两个模型在Hadoop平台上的对比结果显示,在训练数据相同的情况下,CRF模型识别性能略高于HMM模型,但在Hadoop平台上进行模型训练时随着数据量的不断增大HMM模型训练效率远高于CRF模型。本文选用HMM模型在Hadoop平台上对大规模生物医学文本进行命名实体识别。(2)在Hadoop平台上使用HMM模型进行生物医学命名实体识别,该操作分为两个MapReduce过程:过程一,对测试数据进行数据清洗操作,去除产生噪声干扰的无用信息并得到新的测试数据;过程二,在Map阶段完成句子分割,标记分词和词性标注的处理过程,并将带有词性标签的句子作为输出发送给Reduce阶段;Reduce阶段调用维特比算法根据(1)中训练好的HMM模型参数对句子进行命名实体名称标记,并最终输出带有生物医学命名实体标签的句子。在Hadoop平台上的实验结果表明,面对大规模的生物医学文本使用Hadoop平台进行命名实体识别的效率远高于单机处理过程,可以节省大量处理时间。
其他文献
近年来,乳腺癌的发病率持续上升,乳腺癌的综合治疗中,化疗是不可或缺的,具有十分重要的作用,但是有些化疗效果不是很理想,而且容易产生耐药性。在肿瘤生长过程中,其内部新生
目的:结直肠癌(Colorectal Cancer,CRC)是目前我国常见的恶性肿瘤之一,其发病率逐年上升,其确切机制尚不明确。结直肠癌的病理生理机制是一个涉及到多个阶段、多个影响因素、
1996年的刑事诉讼法确认了律师在侦查阶段介入诉讼,会见犯罪嫌疑人的权利,但这一规定并未使律师在侦查阶段会见犯罪嫌疑人成为常态,解决侦查阶段的会见难,应该另辟蹊径,从以
目的:优选飞龙掌血总生物碱的提取工艺。方法:以酸性染料比色法测定的总生物碱含量为指标,采用单因素和正交试验法,考察液料比、乙醇体积分数、提取温度对提取工艺的影响,确
谢冰莹作为中国文学史上第一个女兵作家,她的新女性重塑之路独树一帜。晚清以来随着辛亥革命、五四新文化运动、北伐战争、抗日战争等等重大事件的发生,救亡成为近现代文学最
根据现场监测数据和“斋藤法”蠕变理论,提出了岩体边坡临近滑坡但未滑落部位边坡变形改进的“斋藤法”曲线和变形发展四阶段,推导了改进的“斋藤法”变形、速率、加速度曲线方
初步调查了华南地区常见的园林观根植物,发现裸露于空气中从而具备观赏性的植物根系类型大多为定根中的侧根、不定根中的气根(呼吸根、支持根、攀援根)和板根。探讨了植物根景
目的:探讨CT在直肠癌分期中的临床应用价值;分析下段直肠癌直肠系膜筋膜受累在CT图像上的影像表现,探讨其与术后局部复发的相关性。材料和方法:搜集内江市第二人民医院2011年
<正>采用第一性原理计算了Ni掺杂的填充方钴矿体系RyFe3NiSb12的能带结构,显示了该体系的价带顶附近为Sb的5p电子和过渡族金属的3d电子组成的双带结构,其中Sb的轻空穴带位于
会议
<正>一、高一语文课程的教学目标新课程标准将发展学生的审美、探究、应用三大能力视为语文课程的基本任务,这一任务在高一必修课程目标中已经得到强化。在教学实践中,高中语
会议