汉语框架语义角色自动标注研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:jjfhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的出现和发展及其在自然语言处理领域的应用,大幅提高了语言信息的处理速度和质量,由于深层语义理解在目前条件和技术下难以实现,自然语言研究学者开始将注意力集中在简单、实用的任务上,于是“浅层语义分析(Shallow Semantic Parsing)”逐渐被研究人员所重视。语义角色标注则是浅层语义分析的一种可行方案。二十世纪末C.J.Fillmore提出了框架语义学,它试图形式化描述词在其每个义项下的语义和句法相互作用的配价模式。在此基础上,构建了英语框架网络(FrameNet)。之后许多国家的学者相继研究了本国语言的框架语义,建立了相应的词汇知识库。并研究了计算机辅助自动标注系统。本文使用由山西大学研制的汉语框架网络知识库作为语料资源通过统计机器学习方法研究了语义角色的自动标注问题。本文基于条件随机场(CRF,condition random fields)模型,研究框架语义角色的自动标注模型。该模型以词作为标注的基本单元,通过BIO策略,把语义角色标注问题转化为序列符号的分类问题,用CRF模型对句子中目标词的语义角色同时进行边界识别和分类。我们通过选择词、词性、位置、基本短语块、功能块等特征,对不同特征模板的实验结果进行比较,得到了一组最优的特征模板。在完成语义角色标注的基础上,对框架语义的三层标记中的的短语类型和句法功能再进行建模、以及训练和测试。最终实现,框架语义的三层标记的自动标注。本文中最重要的工作就是对给定的框架,给定的目标词,如何选取一组好的特征,使得选取的特征模板有较好的泛化能力。本文使用准确率P,召回率R和Fβ=1作为评价标准。对不同的框架分别以Fβ=1为主要指标得到该框架的最佳特征模板,但其方法具有一般性,适用于其他框架的自动标注。
其他文献
函数系数自回归模型(Functional Coefficient Autoregression Models即FAR模型)是非线性时间序列模型中非常重要的模型.但是目前的研究大多是在假定扰动项(也称误差项)εt是Gauss