论文部分内容阅读
中文信息处理属于计算语言学的一个分支,它在我国信息化建设中起着越来越重要的作用。一般把中文信息处理的进程分为三大阶段:字处理阶段、词处理阶段和句与篇章处理阶段。目前,我国在字、词处理方面已经取得突破性进展,正艰难地向句处理和篇章处理阶段迈进。复句作为汉语语法的重要实体单位,它表达的语义信息丰富而复杂,因而成为中文信息处理的研究重点。关系词在现代汉语复句领域起着关键作用,是汉语语法、语义研究中的重要课题。人们对于复句的理解,往往通过“抓住标记”来实现,同样,计算机也需要通过“抓住标记”来理解复句。为了正确标识复句关系词,《基于规则的复句关系词自动标识系统》建立规则和规则库,用规则来判定准关系词是否为关系词。本文针对规则的可读性、灵活性等特点,研制了肌则解析器,它是复句关系词自动标识系统中黍要的功能模块。规则解析器主要包括两个接口:1、规则库与规则引擎的接口。本接口通过一种新的字符串匹配算法——包含匹配,实现了规则引擎标识的准关系词序列与规则库中句式的匹配,获得全部的匹配子串,确保了匹配的完整性。2、规则库与特征分析器的接口。本接口通过调用特征分析器来实现规则约束条件的解析,并根据解析结果获取最佳匹配规则的结论,根据结论去标识准关系词。规则解析器的特点是:能够自动提取规则库中的所有规则并自动完成解析任务,而且准确性高、执行速度快;同时简化了规则引擎的工作,使规则引擎只需利用规则解析器的结果去评价结论、标识准关系词。