基于CRFs的英语功能小句自动句法分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:qi_anwei1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析问题是自然语言处理领域的重点和难点,但逐步进入了瓶颈期。要提高句法分析的准确度,不仅需要适合的算法或模板,更要有语言学理论作为语法支撑。系统功能语法强调语言的功能,在句法分析时,注重语义和上下文,能够提高句法分析精度,完善自然领域领句法分析对语义和语境的处理问题。而系统功能语言学中的小句句法分析是近年来新兴的领域,理论成果较少,很值得研究和拓展。本文将韩礼德系统功能语法中的小句理论应用到句法分析当中,在前人的基础上,面向自然语言处理,将小句的句法功能成分规定为7种:主语、谓语、谓语剩余部分、补语、补语2/3/4、补语剩余部分和状语。同时,结合词性标注知识对自建的小型商务英语语料库进行人工标注。自动句法分析系统采用适于小型语料库的CRFs条件随机域模型,进行了六重交叉实验,测试识别的准确率、召回率和F值。实验表明,在我们的句法分析系统中,总体句法分析准确率达到92.5%,召回率91.96%和F值92.18%,分析效果是良好的。在对小句7种功能成分的识别中,识别效果最好的是谓语P功能和主语S功能,准确率、召回率和F值均高于97%;对补语C1的识别相对较好,准确率达到93.39%,召回率88.62%,F值90.86%;对于状语D、补语C、补语C2、谓语剩余部分的识别效果相对较低。为了提高和完善功能小句的句法分析,本文从语言学角度做了细致的错误分析。进行错误分析的语料由5021句经过句法分析实验的句子随机组成。经SQL Server统计,共出现193种错误。本文将其分为3类一级错误、7类二级错误和38类三级错误。错误分类比例显示,状语和补语功能的识别错误最多,人工标注错误最少。究其错误原因,错误类型可分为4大类13小类。四大类包括:句型原因引起的错误、遗漏标注引起的错误,人为标注错误和标点引起的错误。随着越来越多的语言知识融入句法分析领域,从语言学角度进行错误分析是提高句法分析效果的必经之路。本文的错误分析结果表明,不仅语料的大小决定句法分析的质量,计算机对语言知识的学习和运用才是关键。
其他文献
近日,广州供电局发布时空大数据云平台(ABCGIS),利用人工智能、大数据、云计算及时空地理信息系统等新技术,打造数字南网、智慧南网。这是南方电网公司加快规划建设智能电网的
针对一类系统矩阵、输入矩阵和仿射项中同时包含不确定项的分段线性系统,进行了闭环反馈镇定设计,并将闭环系统的极点配置到α稳定区域。将闭环系统的α稳定的极点配置问题转化
通过对陕西茶叶发展现状.特别是机械化生产现状的调研,并在总结分析机械化茶叶生产试验示范效果的基础上.指出了目前茶叶生产机械化存在的问题和发展方向.提出了进一步加快发展茶
近年来,随着经济快速增长和全球化,不同国家之间的文化交流和学术交流与互动增多。然而,语言障碍仍是人们交流想法和意见的一个大问题。在这种情况下,一名专业的口译员则成了
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
将不同添加比例的大豆分离蛋白、卡拉胶及大豆分离蛋白和卡拉胶的复配物添加到肌原纤维蛋白中,测定复合蛋白乳化特性、凝胶持水性、质构特性、白度和微观结构。结果表明:相比
阐述了城市街道家具的含义,分析了城市家具设计中人的行为心理,从座椅尺度、座椅造型色彩、座椅制作材料及市民参与等方面,深入探讨了城市家具设计中的公共管理,从而解决当前
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
2018年8月10日上午应湖南省岳阳市某饲料公司一位经理的邀请前去湖南省汨罗市罗江镇天井片区某猪场诊治猪病。根据临床症状,病理变化,实验室PCR检测,最后诊断为猪蓝耳病毒与