论文部分内容阅读
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。本文研究的汉语词法分析主要包括自动分词、词性标注和中文命名实体识别三个方面。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等面向最终用户的应用系统的质量。同时,词法分析中的三个子任务作为其它一些相关语言处理的典型代表,对其所用的技术也可有助于处理其它相似任务中,如音字转换、组块分析以及生物信息处理等,所以对它的研究具有极其重要的意义。影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督方法上主要探讨了N-gram模型、最大熵模型、条件随机域模型和支持向量机模型;无监督方法上探讨了词向量空间模型;强化学习机制上,研究人工免疫理论以及面向自治计算理论。从特征抽取角度,建立了粗糙集挖掘复杂特征的方法,利用触发对方法抽取命名实体的特征等。并利用以上研究成果对汉语词法分析进行了深入研究。主要研究内容包括以下几个方面:第一,基于条件随机域模型建立中文词性标注模型。隐马尔科夫模型(HMM)是产生式模型,不易融入丰富的特征,相比之下,最大熵马尔科夫模型(MEMM)是条件概率模型允许特征非独立,并允许增加各种颗粒度的特征,但它对每个状态均定义一个指数模型来计算在给定当前状态时下一状态的条件概率,因而存在标注偏置问题。本文引入条件随机域模型(CRF)处理中文词性标注任务,它仅使用一个指数模型来计算在给定观察值序列条件下整个标号序列的条件概率,可有效克服标注偏置问题。在此基础上,引入触发对特征进一步改善标注的性能。此外,又探索中文组块特征在词性标注任务中的作用,接着考察了支持向量机模型在序列标记问题中的高效处理方法,并将其用于处理音字转换任务。最后研究了采用多分类器组合方法处理中文词性标注问题。第二,基于最大熵模型进行中文命名实体识别研究。最大熵模型(ME)是条件概率模型,易于融入丰富的特征。近些年的评测已经表明其在命名实体识别任务上具有较好的性能,据此,本文研究了最大熵命名实体识别模型中的特征抽取方法,以及联合词向量空间模型与同义词词典进行特征扩展的方法。然后在此基础上,针对中文的特点,进一步提出了双层混合模型的中文命名实体识别方法。此外,常见的命名实体识别算法都是以句子为单位,在整个语句范围内抽取上下文特征。对此,在借鉴无监督学习方法的基础上,我们提出领域扩展学习的策略,能够有效地利用段落及篇章特征来提高实体识别的性能。第三,引入粗糙集理论提取复杂特征。传统的基于模板的特征抽取方法难以获取复杂特征,为了能够有效地利用上下文特征,本文引入扩展的粗糙集理论抽取复杂特征。因考虑到该方法只是按照粗规则精度区分规则的重要程度,在联合其它特征采集方法时并未按总体性能为其分配权重,我们将粗规则特征融入最大熵模型中,通过最大熵模型为粗规则特征分配权重使得模型的整体性能最优。此外,针对自然语言中决策属性值存在分布不均匀的问题,我们又引入可变精度粗糙集理论来进一步改善消歧性能。第四,研究词法分析中强化学习机制的理论和方法。基于语料库的有监督方法通常面临着数据稀疏问题与独立同分布条件假设。由于语料库中的数据分布一般符合Zipf定律,所以数据稀疏问题难以通过增大语料库获得解决,而在实际应用时,其数据与训练数据往往由于属于不同的应用领域,因而又不易满足独立同分布的假设。许多任务处理中,上述两个困难成为现有有监督方法性能进一步提高的障碍。在现有有监督方法的性能几乎接近其上限的情况下,本文面向词法分析技术对于如何有效地利用使用过程中的反馈信息实现在线学习进行了深入的研究,丰富了语言处理方法的理论。针对现实应用时的反馈信息呈现“局部感知”的特性,往往不严格满足分布特性,本文深入研究了局部感知的在线学习,并建立基于克隆选择理论的中文人名识别模型、基于人工免疫网络和面向自治计算的中文分词、词性标注与音字转换模型。