基于双语语料的汉语多词表达抽取

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:winddss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达是由若干个具有一定的句法和语义关联的词汇构成的意义相对完整的语义单元,跨越了语言当中意义相对完整的词的边界。随着自然语言处理研究的深入和发展,多词表达开始成为自然语言处理的一个研究热点。但是,研究的语言多集中在印欧语系,汉语由于不具备天然的词边界并且词的边界本身就比较模糊,多词表达的研究则集中在特定结构的词的组合的发现上。因此,利用对齐双语语料进行汉语多词表达的研究,可以利用印欧语言的边界来帮助确定汉语中完整语义单元的边界。基于以上考虑,本文提出一种基于中英文双语语料获取非特定结构的汉语多词表达的方法,实验表明,该方法在规模较小的语料上也能够获得不错的抽取效果。该方法包含两个阶段:首先是基于双语语料的汉语多词表达候选的抽取。基于汉英双语语料库,利用汉语到英语词汇的多对一现象,以及英语中边界明确且意义相对完整的词的信息来抽取候选的汉语多词表达。由于这阶段只是利用词位的对应信息,因此抽取的多次表达没有受到结构约束。在获得候选的多词表达之后,基于多种技术进行筛选,最终得到最后的汉语多词表达。其中,首先利用邻接关系、词数等规则信息进行噪声的过滤,然后选用互信息(MutualInformation, MI)、t-检测值(t-value)、对数似然比(Log Likelihood Ratio, LLR)等统计量进行进一步的筛选。
其他文献
常规游梁式抽油机由于结构简单、操作放便、维护简便、维修费用低廉等特点,一直占据着有杆采油系统地面设备的主导地位。在选择游梁式抽油机时,电动机的装机容量一般选得比较大
光纤电容液滴分析技术通过获取液滴在成长过程中光纤信号随液滴体积的变化规律,得到“液滴指纹图”。它反映了液体密度、粘度、折射率、表面张力等多种特性,可以作为鉴别两种
有关多智能体系统和分布式人工智能的研究已经成为近年来学界研究的重点。机器人世界杯(Robocup)是一个典型的多智能体系统,它具有动态的环境。由于每个队员都可以看作是一个
优化是一个古老的课题,已存在许多经典数学方法可以解决优化问题,但是随着科学技术的发展,经典的数学优化方法已经不能满足需要,因此出现了仿生优化算法。仿生优化算法是基于
访问控制的功能主要有,防止非法的主体进入受保护的网络资源,允许合法用户访问受保护的网络资源,防止合法的用户对受保护的网络资源进行非授权的访问等。访问控制是在保障授
图形预测仿真是克服机器人遥操作系统大时延问题的一种有效手段。将结合双目立体视觉的增强现实技术应用到机器人遥操作图形预测仿真系统中,能有效提高遥操作系统的工作效率