基于双语语料的汉语多词表达抽取

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户：winddss

【摘要】

：

多词表达是由若干个具有一定的句法和语义关联的词汇构成的意义相对完整的语义单元,跨越了语言当中意义相对完整的词的边界。随着自然语言处理研究的深入和发展,多词表达开始

【作者】

：

胡玉溪

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年01期

【关键词】

：

多词表达汉英双语语料非特定结构词对齐统计方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多词表达是由若干个具有一定的句法和语义关联的词汇构成的意义相对完整的语义单元,跨越了语言当中意义相对完整的词的边界。随着自然语言处理研究的深入和发展,多词表达开始成为自然语言处理的一个研究热点。但是,研究的语言多集中在印欧语系,汉语由于不具备天然的词边界并且词的边界本身就比较模糊,多词表达的研究则集中在特定结构的词的组合的发现上。因此,利用对齐双语语料进行汉语多词表达的研究,可以利用印欧语言的边界来帮助确定汉语中完整语义单元的边界。基于以上考虑,本文提出一种基于中英文双语语料获取非特定结构的汉语多词表达的方法,实验表明,该方法在规模较小的语料上也能够获得不错的抽取效果。该方法包含两个阶段：首先是基于双语语料的汉语多词表达候选的抽取。基于汉英双语语料库,利用汉语到英语词汇的多对一现象,以及英语中边界明确且意义相对完整的词的信息来抽取候选的汉语多词表达。由于这阶段只是利用词位的对应信息,因此抽取的多次表达没有受到结构约束。在获得候选的多词表达之后,基于多种技术进行筛选,最终得到最后的汉语多词表达。其中,首先利用邻接关系、词数等规则信息进行噪声的过滤,然后选用互信息(MutualInformation, MI)、t-检测值(t-value)、对数似然比(Log Likelihood Ratio, LLR)等统计量进行进一步的筛选。

其他文献

基于自调整比例因子模糊控制的抽油机节能控制系统研究

常规游梁式抽油机由于结构简单、操作放便、维护简便、维修费用低廉等特点，一直占据着有杆采油系统地面设备的主导地位。在选择游梁式抽油机时，电动机的装机容量一般选得比较大

学位

石油工程抽油机节能控制系统自调整比例因子模糊控制

液滴指纹图的数据采集及处理软件的开发

光纤电容液滴分析技术通过获取液滴在成长过程中光纤信号随液滴体积的变化规律,得到“液滴指纹图”。它反映了液体密度、粘度、折射率、表面张力等多种特性,可以作为鉴别两种

学位

液滴指纹图数据采集滤波归一化波形分析

基于改进型量子遗传算法的活性污泥模型参数校正

国际水质协会IAWQ推出活性污泥模型以来，凭借其处理工艺简单、运行效率高、鲁棒性强和处理成本低等优点，得到了广泛的发展和应用。目前世界上很多国家和地区采取了活性污泥处理

学位

污水处理活性污泥参数校正个体浓度改进型量子遗传算法

装配机器人系统的工件定位和抓取装配研究

装配几乎是所有工业生产的必要环节，也是工业生产花费最大的环节之一，在制造领域占有重要地位。装配机器人的出现使得装配系统在降低成本的同时极大提高了系统的运行效率。而近

学位

装配机器人目标检测三维工件定位图像矩抓取点提取

面向微光/红外融合的彩色夜视图像场景解析方法研究

彩色夜视技术可以将微光/红外双谱图像融合成一幅适于人眼观察的彩色图像，而恰当的场景解析方法能够对彩色夜视图像的内容做出自动化分析，进一步减轻人眼的观测负担，对实现夜晚

学位

彩色夜视图像微光/外双谱图像图像融合场景解析非参数模型深度学习神经网络

基于3D仿真机器人系统的学习控制与算法研究

有关多智能体系统和分布式人工智能的研究已经成为近年来学界研究的重点。机器人世界杯(Robocup)是一个典型的多智能体系统,它具有动态的环境。由于每个队员都可以看作是一个

学位

多智能体层结构机器人仿真足球仿真服务器球员决策算法

仿生优化算法的研究与应用

优化是一个古老的课题,已存在许多经典数学方法可以解决优化问题,但是随着科学技术的发展,经典的数学优化方法已经不能满足需要,因此出现了仿生优化算法。仿生优化算法是基于

学位

粒子群算法遗传算法鱼群算法拥挤度动态传感器网络交通灯控制

基于集成学习的不平数据分类方法的研究

近年来，不平衡数据的分类问题经常出现在各种分类和预测问题中，已经成为数据挖掘和机器学习领域中的一个重要研究方向。不平衡数据通常是指数据集中不同类别样本在数目上的不平

学位

数据分类集成学习入侵检测过采样方法概率分布估计

基于NETCONF平台的访问控制机制研究

访问控制的功能主要有,防止非法的主体进入受保护的网络资源,允许合法用户访问受保护的网络资源,防止合法的用户对受保护的网络资源进行非授权的访问等。访问控制是在保障授

学位

访问控制NETCONFXACMLACL

遥操作双目立体增强现实中的虚实融合与多层次遮挡检测算法研究

图形预测仿真是克服机器人遥操作系统大时延问题的一种有效手段。将结合双目立体视觉的增强现实技术应用到机器人遥操作图形预测仿真系统中,能有效提高遥操作系统的工作效率

学位

遥操作增强现实遮挡处理立体视觉

基于双语语料的汉语多词表达抽取

其他学术论文