中英可比较语料库的构建

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhanghaocong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可比较语料库是自然语言处理领域中非常有价值的资源,但是,目前并没有足够规模的可利用的公共可比较语料库,构建大规模中英文可比较语料库有理论价值和应用价值。本文提出了一种双向的基于跨语言信息检索技术的方法来构建大规模中英可比较语料库。首先,利用开源的网页爬虫工具从新华网上爬取原始的中文文档集合和英文文档集合,并将所有的文档进行统一的格式化处理;然后,分别提取中英文档的主题词来代表当前文档,并将中文文档的主题词翻译成英文,构成英文检索语句,将英文主题词翻译成中文,构成中文检索语句;最后,利用英文检索语句到英文文档集合中检索候选英文文档,利用中文检索语句到中文文档集合中检索候选中文文档,并通过中英文档对的发表日期和相似度进行过滤。实验结果表明,本文的方法明显优于之前的中英可比较语料库构建方法。本文的主要贡献:(1)在中文文档主题词抽取方面,采用了单词和多词相结合的方法。在预处理阶段,针对分词结果中存在的问题,对分词结果进行修正。在单词的抽取方面,有效结合了中文表达习惯上的特点;在多词提取方面,有效结合新闻文本本身的特点;最后,通过去重方法等有效结合了两者。(2)在文档对齐方面,考虑到真实文本中,一篇源文档所对应的目标文档数目是不确定的,本文只取前N篇目标文档作为候选集,设置相似度阈值对候选集进行过滤。(3)本文提出了双向构造法,分别将两种语言的文档集合作为源语言集合,另一种语文的文档集合作为目标语言集合,即从中文到英文、从英文到中文两个方向上构建可比较语料库。实验结果也表明,从两个方向上构造中英可比较语料库明显优于只从一个方向构建可比较语料库(4)设计了相关实验,验证了本文中主题词抽取方法和可比较语料库构建系统的性能。
其他文献
聚类分析就是将数据样本进行分组的过程,它的目标就是根据数据样本的结构特征提取数据集中隐藏的信息,从而对数据进行合理的划分。聚类分析已经成为数据挖掘和机器学习领域中一
随着多核技术的发展,计算机多核处理器的片内互连问题成为系统设计的关键所在,这一问题吸引了越来越多的工作者致力于互连网络拓扑结构理论的研究。人们希望通过比较这些互连网
当前,美国、欧洲及日本等发达国家均对数字信息传输技术进行了深入的研究,我国对数字卫星通信、数字有线电视和数字地面电视的信源编码及标准也展开了研究。针对通信中传输复
近年来,随着电子信息,通信以及计算机科学的快速发展,脑电信号的处理所需要的理论和技术也越来越完善,因此,对脑机接口(Brain Computer Interface,BCI)的研究已经开始成为热点。获取
网络管理员的工作是很复杂的,只要网络出现异常,网络管理员就会想救火队员一样忙,他们不仅要负责安装、维护HUB、交换机、路由器、防火墙、IDS(IPS),而且要确保这些部件全部都能
随着多媒体内容的急剧增长、各种不同终端设备的出现以及异构网络的动态特性,用户对多媒体体验的要求越来越高,他们希望能够使用各种设备随时随地享受更好的多媒体服务,这种范式
无线传感器网络(Wireless Sensor Networks,简称WSNs)是一种由大量廉价的微型传感器节点通过自组织形式组成的智能网络系统,在军事和民用等领域有着十分广阔的应用前景。目标
在科技飞速发展的现代社会,服务器系统的安装数量呈直线上升趋势,服务器管理员的工作也日趋繁重,为了减轻管理员的工作负担并且丛整体提高服务器的了用性、可靠性方面来考虑,
高等职业教育作为高等教育的一个重要组成部分,其主要目的是培养技能型人才,提高学生实际工作能力。为了更好地科学有效地评价高职院校的教学质量,教师要注重对学生实践能力的培
随着RFID、无线网络等物联网技术的快速发展,产生了大量的移动对象数据。移动对象一般都具有多维属性和时空特征,移动对象之间进行通信形成了移动对象网络。如何处理和有效利