特征结构及其汉语语义资源建设

来源 :武汉大学 | 被引量 : 7次 | 上传用户:lupt2681006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语义分析,特别是大规模真实文本的语义分析,一直是当前自然语言处理的难点。传统依存分析法等标注方法在处理汉语特殊句型和特殊语言现象如主谓谓语句、连动句等句型时遇到一系列难题。基于语义方法建构的标注语料库,是自然语言处理基础研究和应用技术研究的基础。本文为汉语提出了一个语义分析模型——“特征结构”,并基于特征结构模型,并进一步运用特征结构模型分析了汉语语言学界争议较大的特殊句式(主谓谓语句、连动句等)。研究结果表明,特征结构模型在分析汉语语句时,比传统依存分析法能包含更多的语义关联,并能在语言学理论研究范围内解释汉语特殊句型的范围、类型及其特点等疑难问题。本研究为中文信息处理提供了一种语义分析方法,也提供了一个可以为各大研究机构共享的汉语句子级语义资源;同时也为汉语语言学理论中某些问题的解释提供了一个别样的视角。全文分六章,主要内容及观点如下:第一章:引论。主要包括课题研究背景、国内外研究现状分析、研究对象界定、研究内容等内容。第二章:特征结构模型。主要包括特征结构模型的界定,特征结构的特点:用特征三元组反映概念关联和关联种类,特征三元组允许多重关联和交叉关联,特征三元组允许嵌套和递归。特征结构的形式化表示为特征结构图,是一个可递归的无向图。特征结构的判定方法是基于提问的方法,研究了各种句式中提问的条件、提问针对的成分以及特征词在其中的分布等。在大规模真实语料中,特征结构三元组的类型可以分为六类。第三章:汉语特征结构资源建设。本语料库的语料来源于宾州中文树库的生语料、国内近三年中文新闻语料以及中小学语文课本。标注方式采用人工标注和计算机标注软件相结合的方法。设计并编写了汉语语义资源标注软件“语言标注平台”。研究了特征结构的判定标准。本章重点在于提出了详细地特征结构标注标准。第四章:主谓谓语句的特征结构研究。本章首先回顾了语言学界对主谓谓语句的研究成果和争论内容,根据汉语主谓谓语句的语法特点,分析了面向自然语言处理时的标注难点,然后运用特征结构模型对语言学界讨论过的十三种类型的主谓谓语句进行了细致的语义描述和分析,总结出了六种语义模型。将现有的传统依存分析方法和特征结构分析方法对主谓谓语句的分析结果进行了对比,结果表明,特征结构分析方法包含了更多的语义信息。第五章:连动句的特征结构研究。本章首先回顾了语言学界对连动句的研究成果和争论焦点,总结了汉语连动句的语法特点,然后分析了面向自然语言处理时连动句的标注难点。运用特征结构模型对语言学界讨论较多的16个连动句分别进行了细致地语义描述和分析,总结出了四类语义模型。将现有的传统依存分析方法和特征结构分析方法对连动句的分析结果进行了对比,结果表明,传统依存语法无法表示连动句中主语和除第一个谓语动词之外的其他谓语动词之间的语义关系,无法表示连动句中某个谓语动词的宾语与其他谓语动词之间的语义关系,也无法准确表示两个或多个谓语动词之间的语义关系。与传统依存分析法相比,特征结构模型能够描述更多的语义关系对,因此包含更加丰富的语义信息。另外,特征结构模型能够对传统依存分析法不能解释的语言现象做出解释,比如对连动句句式的判定、对连动句和紧缩复句的区分、对复杂的杂糅句式的语义分析等。特征结构模型在一定程度上推进了语言学理论的深化和发展,也为面向汉语的自然语言处理提供了一种新颖的语义分析方法。第六章:总结。包括评估、研究特色、应用价值、下一步研究计划等内容。本文主要创新点在以下三方面:(一)提出特征结构模型,探讨汉语语句的语义表示机制。(二)基于特征结构模型,对汉语语句进行语义标注,探寻适合汉语独特特点的语义分析方法和标注标准。(三)运用特征结构模型探讨了汉语特殊句型的语义分析方案,并尝试以新的视角来解释语言学理论中的争议问题。
其他文献
目的:研究毛蕊花糖苷制剂联合免疫抑制剂治疗特发性膜性肾病的临床有效性与安全性。方法:选取2016年~2019年在本院接受治疗的117例,经肾穿刺活检,病理类型诊断为特发性膜性肾
本文提出了一种面向光盘文档库的数据组织方案(简称CBCD),并在此基础上实现了光盘文档库的生成系统和浏览系统.文档库生成系统以Internet上丰富的置标文档如SGML、HTML、XML
研究了一种改进的随机振动系统的频谱均衡自调整算法,通过对随机振动对数功率谱模型的分析,提出了其离散小波变换的系数噪声可近似为高斯分布,设计了与尺度相关的阈值非线性
对学汉语的外国留学生来说,汉语中疑问词的非疑问用法是学习汉语的一个难点。现代汉语否定词与疑问词结合的情况很多,虽然学界一直以来对这两个词类的研究和关注不少,但是对
近日消息,北斗星通子公司和芯星通有关负责人向大智慧通讯社表示,目前和芯星通正在研发北斗第三代芯片,量产时间尚不能对外披露。
提高随班就读的教育质量关键是提高随班就读课堂教学的质量.要提高随班就读课堂教学的质量,必须规范课堂教学的要求,突出随班就读课堂教学要求的双重性,即指导教师在教学中,
本文在山西晋语的大背景下,以晋语上党片长治方言的体貌现象为研究对象,在实地调查和借鉴前贤研究成果的基础上,对长治方言的体貌助词及相关助词进行共时和历时考察。从共时