中文语义角色标注的方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shiyilang7879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文语义角色标注是近年来中文信息处理的一个热点,它能够广泛应用到信息检索、问答系统、信息抽取等领域中。句法分析对语义角色标注的影响很大,使用不同句法分析方法进行语义角色标注是目前该领域研究的主流。因此本文主要针对中文语义角色标注中特征的构造和选择,使用依存句法进行中文语义角色标注,以及多句法分析结果相结合进行了深入研究。  特征的构造和选择一直是中文语义角色标注的一个难点。本文针对中文短语结构句法和依存句法的特点,提出了许多有效的新特征和组合特征,并通过χ2显著性检验、贪心算法的特征选择方法找到最优特征集,有效提高了系统性能。在最优特征集上,基于高质量短语结构句法和依存句法的系统,性能分别达到了91.31%和85.22%。  基于依存句法进行中文语义角色标注是一种新方法。本文首先通过Penn2Malt转化Chinese Proposition Bank(CPB)得到高质量语料进行实验,并使用丰富的特征和有效的后处理规则,使得系统性能达到85.22%。然后采用哈工大信息检索研究室的语言技术平台,实现了基于完全自动依存句法的中文语义角色标注系统。本文利用依存句法丰富的依存关系类型,系统精确率提高到77.22%,最终超过了基于自动短语结构句法的系统精确率。  多句法结合能够充分利用句法层次的信息指导语义角色标注。利用多种句法分析器输出结果的不同,找到更多的句法结构参与语义角色的标注,以期提高语义分析的召回率,从而提高语义分析的性能。本文采用自动短语结构句法和自动依存句法相结合的语义分析方法,综合利用短语结构句法标注的较高召回率和依存句法标注的较高精确率,并给出对角色候选分类处理的有效结合策略,最终提高了系统的性能。从而证实了这种多句法相结合的中文语义角色标注方法是有效的。
其他文献
随着网络规模的不断扩大,网络用户的不断增多,网络知识的不断普及,网络和信息的安全受到越来越大的威胁。信息的机密性、完整性和可用性遭到严重侵害的事件时有发生,信息安全
随着计算机和网络技术的飞速发展,工作流在企业信息化领域的应用越来越广泛。工作流管理是一个被业界广泛应用并迅速发展的技术,主要是通过调用有关的信息资源和人力资源来协调
随着计算机技术和Internet的飞速发展,嵌入式技术和设备在我国国民经济和国防建设的各个方面存在着广泛的应用领域,有着巨大的市场。可以说它是信息技术的一个新的发展,是信息产
随着飞行器智能化和信息化水平的不断提高,飞行控制系统变得越来越复杂,对嵌入式系统的处理能力、工作温度范围、抗辐照能力、功耗、浮点运算精度、可靠性、稳定性提出了更高
随着汽车产业和交通运输业的发展,安全成为了一个不可忽视的问题。根据交通部门的统计,由于疲劳驾驶造成的交通事故占将近总数的30%,因此各国的科研机构和各大汽车公司都开展了对
结构对齐无论对于基于实例的机器翻译还是基于统计的机器翻译都是一项基础性的研究工作。高质量的对齐短语是进行基于语料库的机器翻译获取高质量译文的重要保证。结构转换是
蜜网技术受到网络安全领域的重视,并且广泛的应用于各个领域。通过精心布置的蜜网系统可以吸引入侵者的攻击,进而了解入侵者的攻击目的、攻击方法和攻击工具,特别是对各种未知攻
当前,在政府、企业、军事机构中有大量的机密资料和情报保存在计算机系统的数据库中,如果数据库系统存在安全隐患,则机密信息的泄露或被破坏所造成的损失是难以估量的。因此,数据
互联网为信息共享和交互提供了极大的便利,但随之而来的网络安全问题也日益明显。作为一种主动的信息安全保障措施,入侵检测已经与诸如加密认证和访问控制等基于防御的安全机制
随着市场经济的不断发展和电力体制改革的不断深入,对高压电器产品质量检测单位的要求越来越高。近年来,各个高压电器产品质量检测单位为提高自身管理水平和服务质量,对质量检测