统计中文词法分析及其强化学习机制的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangxiaoxiao880523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。本文研究的汉语词法分析主要包括自动分词、词性标注和中文命名实体识别三个方面。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等面向最终用户的应用系统的质量。同时,词法分析中的三个子任务作为其它一些相关语言处理的典型代表,对其所用的技术也可有助于处理其它相似任务中,如音字转换、组块分析以及生物信息处理等,所以对它的研究具有极其重要的意义。影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督方法上主要探讨了N-gram模型、最大熵模型、条件随机域模型和支持向量机模型;无监督方法上探讨了词向量空间模型;强化学习机制上,研究人工免疫理论以及面向自治计算理论。从特征抽取角度,建立了粗糙集挖掘复杂特征的方法,利用触发对方法抽取命名实体的特征等。并利用以上研究成果对汉语词法分析进行了深入研究。主要研究内容包括以下几个方面:第一,基于条件随机域模型建立中文词性标注模型。隐马尔科夫模型(HMM)是产生式模型,不易融入丰富的特征,相比之下,最大熵马尔科夫模型(MEMM)是条件概率模型允许特征非独立,并允许增加各种颗粒度的特征,但它对每个状态均定义一个指数模型来计算在给定当前状态时下一状态的条件概率,因而存在标注偏置问题。本文引入条件随机域模型(CRF)处理中文词性标注任务,它仅使用一个指数模型来计算在给定观察值序列条件下整个标号序列的条件概率,可有效克服标注偏置问题。在此基础上,引入触发对特征进一步改善标注的性能。此外,又探索中文组块特征在词性标注任务中的作用,接着考察了支持向量机模型在序列标记问题中的高效处理方法,并将其用于处理音字转换任务。最后研究了采用多分类器组合方法处理中文词性标注问题。第二,基于最大熵模型进行中文命名实体识别研究。最大熵模型(ME)是条件概率模型,易于融入丰富的特征。近些年的评测已经表明其在命名实体识别任务上具有较好的性能,据此,本文研究了最大熵命名实体识别模型中的特征抽取方法,以及联合词向量空间模型与同义词词典进行特征扩展的方法。然后在此基础上,针对中文的特点,进一步提出了双层混合模型的中文命名实体识别方法。此外,常见的命名实体识别算法都是以句子为单位,在整个语句范围内抽取上下文特征。对此,在借鉴无监督学习方法的基础上,我们提出领域扩展学习的策略,能够有效地利用段落及篇章特征来提高实体识别的性能。第三,引入粗糙集理论提取复杂特征。传统的基于模板的特征抽取方法难以获取复杂特征,为了能够有效地利用上下文特征,本文引入扩展的粗糙集理论抽取复杂特征。因考虑到该方法只是按照粗规则精度区分规则的重要程度,在联合其它特征采集方法时并未按总体性能为其分配权重,我们将粗规则特征融入最大熵模型中,通过最大熵模型为粗规则特征分配权重使得模型的整体性能最优。此外,针对自然语言中决策属性值存在分布不均匀的问题,我们又引入可变精度粗糙集理论来进一步改善消歧性能。第四,研究词法分析中强化学习机制的理论和方法。基于语料库的有监督方法通常面临着数据稀疏问题与独立同分布条件假设。由于语料库中的数据分布一般符合Zipf定律,所以数据稀疏问题难以通过增大语料库获得解决,而在实际应用时,其数据与训练数据往往由于属于不同的应用领域,因而又不易满足独立同分布的假设。许多任务处理中,上述两个困难成为现有有监督方法性能进一步提高的障碍。在现有有监督方法的性能几乎接近其上限的情况下,本文面向词法分析技术对于如何有效地利用使用过程中的反馈信息实现在线学习进行了深入的研究,丰富了语言处理方法的理论。针对现实应用时的反馈信息呈现“局部感知”的特性,往往不严格满足分布特性,本文深入研究了局部感知的在线学习,并建立基于克隆选择理论的中文人名识别模型、基于人工免疫网络和面向自治计算的中文分词、词性标注与音字转换模型。
其他文献
<正>党的十八届三中全会提出"构建公共文化服务体系,建立这一体系的建设协调机制是当前重要任务"。《国家"十一五"时期文化发展规划纲要》提出完善公共文化服务体系,"十三五"
<正>疾病谱是了解一个地区的疾病发生状况、分布和变化的基础统计工作。自2009年9月以来,白银市开展了疾病谱统计报告工作,通过分析全市疾病谱,可以在一定程度上了解和掌握疾
伴随着互联网的普及和发展,互联网给受众呈现的健康信息达到了前所未有的量级,这对人们获取和使用健康信息的态度、方式都产生了巨大的影响。如今,互联网已经成为公众获取健
本文对生物入侵的概念、发生过程、危害和防治做了概述。
中共十七届六中全会提出,"全面建成惠及十几亿人口的更高水平的小康社会,既要让人民过上殷实富足的物质生活,又要让人民享有健康丰富的文化生活"。而公共文化服务体系在保障
随着科技水平的不断提高和高精密仪器设备的不断投入使用,对科学实验环境的温湿度控制精度提出了更高的要求。然而在现有设计规范中,对恒温恒湿实验室的空调设计描述并不够详
目前国内对城市公园规划设计的阶段划分尚未形成明确的共识,影响了规划设计工作的质量和效率,通过编制广州市《城市公园规划与设计规范》,提出设置4个基本的规划设计阶段,即:
学龄前儿童已经能区分真实与虚构实体且对真实/虚构实体的恐惧很普遍,能较好地理解他人恐惧反应的原因。应对真实与虚构实体恐惧的策略有现实肯定和积极假装。在应对恐惧策略
在统计双语词典的基础上,提出一种特征加强的多语言文本分类方法.在执行文本分类时,考虑到其他语言的训练文本,使得多种语言的文本集合中均存在训练文本,放松了MLTC的要求.特
恐惧诉求是最常见的传播方式之一,经常被运用在各种公益广告的传播中。本研究以自我效能感理论为基础,采用线上实验法,将受众划分为高、低自我效能感,探讨不同恐惧诉求在戒烟