条件随机场在序列标注任务中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:engineer2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。 中文自然语言处理是让机器理解中文的核心技术。在语义理解的整个过程中,智能分词技术是最初的一个环节。它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够多的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。 命名实体识别任务是指识别文本中人名、地名等具有特定意义的实体,属于信息抽取任务。因为实体通常具有唯一性,所以命名实体识别在信息检索、信息提取等应用系统中受到特别的重视。好的命名实体识别效果对应用系统的性能起到很大作用。 中文分词和专有名词识别都可以看作一个序列标注任务来完成。而条件随机场是应用广泛的序列标注模型。条件随机场模型衍生自图模型中的马尔可夫随机场。以图结构和概率论相结合的方式来描述随机变量的分布。在序列标注任务中,条件随机场的简单形式——链式条件随机场——将求得整个无向图所表示的随机变量的联合概率分布。通过求得最大后验概率的方式,来取得原序列对应的最终标记序列。 本文主要讲解了条件随机场的基本原理。着重从条件随机场模型本身结构的角度阐述了条件随机场在序列标注任务中的合理性和适合性。并通过与其它传统的应用到序列标注任务的模型进行了理论和实验方面的比较,阐述了条件随机场在序列标注任务中的性能优越性。实验表明,序列标注任务中,在同样的实验环境下,条件随机场的性能就已优于传统的分类模型。可以说,无论从模型结构角度还是实际效果来看,条件随机场都是个更适合序列标注任务的序列标注模型。
其他文献
随着经济的发展以及人口的增长,交通拥堵问题日益显著。然而作为开放的复杂的系统,交通系统所具有的特点是非线性和随机性强,另外由于人参与其中,这使得对交通进行有效的协调控制
数字化校园平台是学校信息化建设的重要基础,是推进学校管理信息化进程,提高管理水平,提升服务质量的重要信息化平台。  本文研究了国内外高校和中国石油大学(华东)数字化校园发
公安工作,是保持国家稳定,维护人民生命财产安全的重要工作。而刑侦工作,更是由于其工作对象的性质,决定了它在公安工作中的独特的重要地位。由于刑事案件的严重性、突发性、复杂
随着医疗技术和嵌入式技术的发展与进步,可穿戴式医疗诊断系统的使用逐渐普及。通过配备便携式医疗设备,医疗救助可以在野外进行,为抢救患者的生命赢得宝贵时间。然而,新的应用带
随着数据库应用及信息检索技术的广泛普及,越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息。数据库自然语言接口(NLIDB)技术在这种需求中应运而生。NLIDB是人工
移动Ad hoc网络是一种特殊的无线移动网络,网络中所有节点的地位平等,具有报文转发能力。虽然这种网络目前在很多领域得到应用,但是还存在一些问题。由于Ad hoc网络中节点的移动
准确预测高炉铁水硅含量是有效控制高炉的前提。高炉冶炼过程是十分复杂的物理化学变化过程,而且高炉内部的生产条件非常严酷,通过仪器测得的信息十分有限,所以高炉铁水硅含量的
随着基于Web的企业应用系统的发展,Web 开发在企业应用系统中所占的比例逐渐增大。目前很多基于J2EE框架的企业应用系统中Web开发水平较低,主要表现为开发中的各种逻辑混杂导致
目前,流媒体业务在互联网应用中的不断发展,但是其速度却难以满足网络用户日益增长的需求,内容发布技术与网络硬件设备正在面对严峻的挑战。 本文通过对比分析了传统内容发布
随着企业对工作效率要求的提高,工作流的应用越来越广泛,对工作流的研究也正向更深层次进行。工作流主要分为两部分:工作流模型的创建和工作流的执行。目前工作流建模工具界面