论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。
中文自然语言处理是让机器理解中文的核心技术。在语义理解的整个过程中,智能分词技术是最初的一个环节。它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够多的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
命名实体识别任务是指识别文本中人名、地名等具有特定意义的实体,属于信息抽取任务。因为实体通常具有唯一性,所以命名实体识别在信息检索、信息提取等应用系统中受到特别的重视。好的命名实体识别效果对应用系统的性能起到很大作用。
中文分词和专有名词识别都可以看作一个序列标注任务来完成。而条件随机场是应用广泛的序列标注模型。条件随机场模型衍生自图模型中的马尔可夫随机场。以图结构和概率论相结合的方式来描述随机变量的分布。在序列标注任务中,条件随机场的简单形式——链式条件随机场——将求得整个无向图所表示的随机变量的联合概率分布。通过求得最大后验概率的方式,来取得原序列对应的最终标记序列。
本文主要讲解了条件随机场的基本原理。着重从条件随机场模型本身结构的角度阐述了条件随机场在序列标注任务中的合理性和适合性。并通过与其它传统的应用到序列标注任务的模型进行了理论和实验方面的比较,阐述了条件随机场在序列标注任务中的性能优越性。实验表明,序列标注任务中,在同样的实验环境下,条件随机场的性能就已优于传统的分类模型。可以说,无论从模型结构角度还是实际效果来看,条件随机场都是个更适合序列标注任务的序列标注模型。