【摘 要】
:
在信息爆炸的大数据时代,如何从庞杂的数据中获取简单有效的信息显得日益重要。命名实体识别是在文本中定位和分类专有名词(例如人名、地名等)的手段。在中文领域,这类命名实体发挥着巨大的作用,因而将其更好的发现与提取是一项有意义的工作。文本数据具有上下文依赖关系,本文将数据作为随机变量的集合,挖掘随机变量中实体与其他信息的概率依赖关系。考虑到命名实体识别任务的特殊性,我们从依存句法分析和子序列分割入手,提
论文部分内容阅读
在信息爆炸的大数据时代,如何从庞杂的数据中获取简单有效的信息显得日益重要。命名实体识别是在文本中定位和分类专有名词(例如人名、地名等)的手段。在中文领域,这类命名实体发挥着巨大的作用,因而将其更好的发现与提取是一项有意义的工作。文本数据具有上下文依赖关系,本文将数据作为随机变量的集合,挖掘随机变量中实体与其他信息的概率依赖关系。考虑到命名实体识别任务的特殊性,我们从依存句法分析和子序列分割入手,提出了对其算法的改进,本文主要工作如下:(1)提出了融合依存句法信息的神经网络结构以识别命名实体,通过单向信息的传递,得到与双向信息传递可以匹敌的效果。该方法考虑到将依存句法分析获得的句子中与物理位置无关的信息之间的语义关系作为特征以提高命名实体识别性能。提出将基于词语级别的依存句法分析转化为基于字符的依存句法信息,以获得更多的额外信息并减少错误的依存句法分析结果带来的影响。并引入树状长短期记忆神经网络,挖掘以依存句法分析表示的树状序列信息。(2)提出了神经网络与半马尔科夫条件随机场结合的命名实体识别方法,该方法将序列看成是一个个子序列的集合,并将子序列作为一个整体进行标记,解决了条件随机场中存在局部依赖的问题,从而使得最终的识别性能有所提高。
其他文献
目的:探讨中西医结合治疗恶性肿瘤的临床疗效。方法:回顾分析84例恶性肿瘤患者的临床治疗资料,随机将患者分为观察组和对照组各42例,观察组采用中西医联合化疗治疗,对照组采
<正> 獐牙勾形器和象牙雕筒是大汶口文化中较为特殊的两种器物,它不仅在其它文化中尚未发现,而且在本文化中也有地域上的限制。对这种器物的用途,有着不同的意见,本文试图对
采用ATP-EMTP软件搭建某实际线路模型,通过规程计算与仿真计算,对比分析3种雷击方式下的耐雷水平,研究哪种情况对线路的危害最大。针对雷击塔顶这种方式下,仿真分析其变量对
国内煤矿输电线路防雷技术众多,从目前使用情况看,效果不是很好。主要原因是雷电活动的随机性,加上煤矿所处环境的复杂性,很难确定雷击故障的类型,造成防雷措施针对性不够强[
肥厚型梗阻性心肌病是青年人心源性猝死的最常见原因。严重者应及时治疗,最适病人的筛选、影像技术的辅助、并发症的控制和操作技术的提升将使乙醇室间隔消融术成为治疗肥厚
<正>皮肤瘙痒是血液透析过程中较为常见的并发症之一,是指能诱发患者抓挠欲望的皮肤局部不适感,该症状严重时较易使患者烦躁不安、失眠,影响着患者的生活质量[1]。本文研究循
毛泽东对民生改善有深切的关注,他提出的全心全意为人民服务这一根本宗旨为改善民生提供了思想保障。毛泽东事实上确立了民生改善的政治前提、制度基础、思想保障,为民生改善
基于当前高职学生毕业论文写作教学的状况,提出专业与写作并行指导高职学生毕业论文的教学模式。该模式通过写作课程与专业学术活动互补教学进行前期引导,并建立体现高职特点
<正>到2020年全国全面实现小康社会时,中国水利水电科学研究院(以下简称"水科院)的发展目标是"建成世界一流水利水电科学研究院"。今后5到10年,是实现这一发展目标的战略关键
<正>1写一堂课的得意之处1.1写自己的教学机智一堂课结束后,回顾教学过程,体会学生学习的成功,教师总有得意之处:或启发得当,或例证精辟,或情境创设成功,或实验设计的成功,或