【摘 要】
:
双语平行资源由于其对统计机器翻译和跨语言检索等应用来说具有极其重要的意义,所以获取双语平行资源的方法也成为了自然语言处理领域的热点和难点,特别对于信息不发达的小语
论文部分内容阅读
双语平行资源由于其对统计机器翻译和跨语言检索等应用来说具有极其重要的意义,所以获取双语平行资源的方法也成为了自然语言处理领域的热点和难点,特别对于信息不发达的小语种国家,双语平行语料的提取更是重中之重。近年来,随着中国在东南亚地区对外开放的发展,中国和柬埔寨两国在政治、经济以及文化方面的交流日益增多,而两国间的语言障碍却成为中柬合作发展的重要阻力。在此情况下,柬-汉语言的信息化和智能化处理也显得越发重要。据统计,目前柬埔寨语的使用者超过1400万,然而中柬信息化语言处理的相关研究却还处于刚起步的状态。同时柬埔寨的网络起步较慢,当前网络上现存的中柬双语网站极其缺乏,所以希望通过双语网络资源来获取双语平行语料具有较大困难;而人工获取一定规模的双语平行语料则需要大量的语言专家的长时间参与,导致了平行语料获取的成本过高;还有目前存在的一部分中柬平行语料又存在领域单一,种类较少和时效性较差等问题,这样也会给下面的自然语言处理工作带来困难。在此基础上,如果能找到一种能够从规模较大且范围较广的的可比语料中抽取平行语料的方法,用于平行语料等重要翻译知识的抽取工作,并且没有规模、时效性等方面的不足,这将会给自然语言处理工作带来巨大的激励作用。针对上述问题,在现有研究的工作被我们充分探讨和分析的基础上,本文对如何从可比语料中抽取平行资源进行研究。整篇论文的主要内容如下:(1)基于短语的双语LDA主题模型构建通过构建双语主题模型,获取双语可比语料文档对的主题分布。基于短语的双语LDA主题模型不但能够继承传统LDA主题模型的特点,把一篇高维度的文档,通过主题模型的训练,将词项空间的文档转换到主题空间,由于主题的个数K远小于词项个数,所以能对文档进行有效降维,大大简化了文章主题预测的复杂度;而且还修改传统的LDA主题模型的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的上下文,并且还将传统LDA扩展到了跨语言领域,与传统方法比较,基于短语的双语LDA模型在主题预测方面拥有更好的效果。(2)基于Dirichlet过程的可比语料平行片段抽取基于狄利克雷过程的方法能够将可比语料中杂乱的双语文档,进一步提取精炼成我们可以直接利用的双语平行片段对。为了克服双语平行语料稀缺的问题,本文提出了一个基于Dirichlet过程的从可比语料中抽取平行片段的方法,该方法不依赖于词典和双语平行语料,可以通过非参数贝叶斯模型,直接从双语可比语料集中抽样双语平行片段,且获得较好效果。通过对比实验可知,基于Dirichlet过程的双语可比语料平行片段抽取方法能获得较高质量的平行片段对,且由于模型特点,不用提供任何平行数据,所以更加适用于双语资源稀缺的语种。
其他文献
1936年,日本为侵略西南地区,强行在成都进行非法设领,此行为遭到了川籍民众的反对。川籍民众在上海等地成立反对设领团体,四川本地民众成立反对设领大会进行宣传。8月24日,四川民众与日本人在成都爆发冲突,最终演变为成都事件。成都事件爆发后,中国地方政府和中央政府都极力控制事态,希望成都事件成为地方事件尽快解决,并将事件责任推给了共产党。但是日本政府和日本民众都认为此事可以借题发挥,以此与南京政府交涉
蓝相液晶通常存在于各向同性相和手性向列相之间的一段狭窄的温度范围内(自然状态下为1~2 ~oC),可视为一种自组装结构的三维光子晶体。相比于传统的向列相液晶材料,蓝相液晶
铸铁和碳钢作为工业生产中应用广泛的铁碳合金,具有价格低廉、良好的铸造性能、切削加工性、减振性等优点,但在复杂应力的使用环境中,材料表面易出现磨损、变形甚至断裂。本文采用激光熔覆技术,在HT250灰铸铁和T10钢表面预置Cu-Ti-Ni混合粉末,制备Cu-Ti-Ni复合涂层。通过X’Pert PRO PANalytical型X射线衍射仪、S-3400N型扫描电子显微镜、4XCJZ金相显微镜等,分析了
人脸吸引力是遗传心理学和认知心理学的一个重要命题,研究结果可以给人脸进化(以及人类进化)提供科学依据。结合计算机的人脸吸引力研究可以完善传统研究方法存在主观性强、数据少的不足。在人脸吸引力的研究中,确定人脸模板是首要任务。本文基于迁移学习,提出了一种新的人脸吸引力人脸模板,在人脸模板基础上提取了三种表征人脸吸引力的几何特征,实验结果表明了人脸吸引力人脸模板是合理可行的。具体研究内容如下:(1)在人
周予同是中国经学史学科的缔造者,他在五四运动后投身于经学史研究,著述颇丰。其《皮锡瑞<经学历史>注》、《经今古文学》等著作都是中国经学史的必读书目,也是近代经学史研究的滥觞之作,对于民国时期的经学史、学术史研究乃至现代学术都有着非凡的开拓与奠基意义。周予同的学术研究在新中国建立前后曾发生过转向,其经学史领域的基础性研究大多集中于民国时期。新中国建立后由其一手创建的中国经学史学科也是以这
随着全球定位系统应用的普及,轨迹数据早已应用于人们日常生活中的各个领域。轨迹分段是轨迹数据挖掘中重要的预处理过程,合理有效的轨迹分段结果有助于理解和使用轨迹数据。然而,目前应用于轨迹分段的方法只能针对特定的应用领域及轨迹数据集。本文基于轨迹数据的语义特征,提出一种可适用于多种应用领域的轨迹数据分段方法,之后结合该轨迹分段方法分别构建一种轨迹语义标注框架和一种交通量预测模型。主要内容包括:(1)提出
在现实生活和网络世界里,每时每刻都会产生数量庞大、种类丰富的图像数据,给这些图像标注分类费时费力。因此,在机器学习领域,针对无标签图像的聚类分析是一个研究难点和热点。由于图像本身特征维度很高,对于图像聚类分析而言,图像特征的提取和高维特征的降维对聚类结果有重要影响。虽然人们已经提出了许多成熟的特征提取方法,但是这些方法关注的是图像的低层特征,很少同时关注图像的中间层特征。实际上,图像的中间层特征往
20世纪下半叶,英国传统的经验主义史学因“新史学”的勃兴、后现代主义史学的滥觞而备受冲击。历史研究的客观性、历史发展的规律性以及跨学科研究的可行性等问题成为新旧史
在如今的大数据时代,网络每分每秒都会产生大量的行业数据,数据量之大几乎超出了现有的处理及分析工具的能力。另外,随着现代技术和生活水平的发展,人们对事物的认识也在不断演变。其中,Web新闻是人们每天都要接触的,他作为一种非常具代表性的数据,Web新闻内容以其多种多样的内容,实时发生且不断更新的性质,一直以来都是人们获取知识,了解时事的必要渠道。面对爆炸式出现的新闻内容时,如何快速直接的找到个人想要了
研究恋思萝卜提纯复壮与绿色高效栽培技术工作,是保留优良品种与高产关键所在,高效利用肥料资源,是农业可持续发展的必由之路。本研究通过田间试验与实验室测定对恋思萝卜的提纯复壮技术与绿色高效栽培技术的研究,完成的主要研究工作和成果总结如下:1、恋思萝卜提纯复壮工作的研究:本文主要是对恋思萝卜进行花期套袋工作,并设置未套袋对照组,连续了进行三年五代的大棚试验记录,分别是恋思萝卜的基本性状(叶片数量、根重、