基于SVM的确定性中文依存关系解析

被引量 : 0次 | 上传用户:stoneinhigh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是中文自然语言处理的关键技术之一,句法分析的任务是自动分析出句子的语法结构及语法关系,将一个线性序列的句子转换成一个结构化的语法树。根据不同的语法体系,分析结果表现为不同的形式。本文的句法分析采用的是依存语法的语法体系。 中文依存关系是基于中文依存文法,确定句子中词之间的依存关系。词是句子结构中的最小元素,词与词之间的依存关系解析可以表示词间的深层联系,所以本文在词的基础上进行依存关系解析。大连理工大学自然语言处理实验室在前人研究基础上,依据依存公理制定了一套中文词间依存关系体系,共定义了三十八种词间的依存关系类型,为依存关系语料库的制作提供了标准。 本文基于支持向量机(SVM)采用确定性解析算法进行中文依存关系解析,并且依据中文语法的特点,提出一种改进的确定性中文依存关系解析方法。Nivre算法已经成功的应用于英文的依存关系解析,又英文和中文在句法特点上具有一定的相似性,所以本文采用确定性Nivre算法进行中文依存关系解析。确定性解析算法通过解析句子中各个词与其前后词的依存关系解析整个句子。在中文中,有些具有依存关系的词距离较远,使用确定性Nivre算法进行解析效果并不理想。依据中文语法的特点,在不增加解析时间的前提下提出考虑远距离依存关系的确定性Nivre算法,基于SVM识别中文依存关系。 实验数据采用用哈尔滨工业大学的依存关系语料库。结果表明,使用考虑远距离依存关系的确定性Nivre算法解析中文,使解析精度提高了5.32%,达到78.30%。封闭测试几乎完全正确地解析了训练语料,达到97.64%。考虑远距离依存关系的确定性Nivre算法比原有算法更能体现中文依存关系的特点,有利于依存关系解析。
其他文献
广告是商品经济发展的产物。作为一种重要的信息传播活动,广告已经深入到了人们社会经济生活的各个方面,例如政治、经济、科技、文教、体育、旅游、日常生活服务等,成为当代
中国作为农业大国,无论阶级关系如何变更,农民始终是我国的主要生产力。因此,“三农”问题是我国建设和发展的基础,是关系到党和国家前途的重大问题。随着经济结构的不断调整
分区破裂化现象作为深部岩体工程特有的非线性物理现象之一,经过三四十年的研究和发展,一些问题也越来越明了。各国学者在这一领域取得非常大的进步和突破,然而该现象产生的
我国第一座钢筋混凝土肋拱桥诞生于1961年。之后,钢筋混凝土肋拱桥便以其跨越能力大、材料耗费少、工程造价低、施工难度低等明显优势,成为了桥梁工程师处理跨越“V”形、深
以南岭成矿带1∶50万地质数据库、物化探数据为信息源,通过数据处理、分析与推断,编制相关成果图件.以GIS 为平台、地质异常理论为指导,基于多元信息成矿耦合分析与异常提取,
通过采用文献资料法、专家访谈法、逻辑分析法等方法,结合竞技健美操项目的发展趋势,对我国竞技健美操运动员的竞技水平进行分析与研究,研究表明制约我国竞技健美操运动员成绩偏
目的分析眩晕误诊病例的临床特点及误诊原因,总结减少误诊的措施,提高诊断率。方法回顾性分析2009年1月-2012年6月我院神经内科门诊及住院诊治的235例眩晕患者的临床资料,根据各
研究背景血管性痴呆(VD)是老年期痴呆的主要类型之一。在我国,其患病率仅次于Alzheimer病,缺血性病变尤其多发性脑梗塞是VD的主要病理基础,VD可由于主要脑动脉闭塞引起脑梗死,梗死
教科书是中小学教学的重要组成部分,它既是教师教学的重要依据,又是学生学习的主要凭借,由于种种原因,我国的中学语文教科书一直存在这样那样的问题。其中中国古代文学作品的选文
果实中糖、酸含量和糖酸比是决定其风味的重要指标。本实验建立了柑橘果实中糖、有机酸及抗坏血酸的高效液相色谱(HPLC)测定方法;以国庆1号、尾张、酸橙、锦橙、红葡萄柚和白葡