基于WEB检索的科技论文摘要辅助翻译

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:rylqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献是科研人员展示研究成果的主要形式之一,并能促进研究成果在学术界的交流与传播,推动科技文化向前发展。论文作者单位译文、论文标题译文和英文摘要都是科技论文中必不可少的部分。科研人员在撰写英文文献时,由于英文水平不足,通常借助于现有的机器翻译技术。虽然统计机器翻译技术取得了长足的进步,使用全自动机器翻译获取的译文多数情况下可以满足日常浏览的需求,但是在面对高质量英文文献写作时,机器辅助翻译仍然是更加现实的解决方案。  本文所指的科技论文摘要包括作者单位(中文组织机构名称)、论文标题和摘要正文,本文的主要研究内容是通过使用WEB检索技术和机器学习策略对科技论文摘要进行辅助翻译,具体包括以下三下方面:  第一,中文组织机构名称译文获取,运用WEB检索技术,结合机器学习策略解决作者单位的译文获取问题。本章研究内容主要包括启发式查询构造,不同的查询词构造方法与不同的搜索引擎对于译文召回率的影响;候选译文生成与过滤,候选译文集合中噪声信息对于分类与排序算法的影响;机器学习策略提取译文,在本章中,主要使用支持向量机分类与排序算法译文提取译文;并以译文提取为例,讨论了在不平衡数据中分类与排序算法的性能优劣。  第二,根据中文文献标题的特点和WEB译文获取技术研究对象的特点,本文提出了基于WEB检索技术的文献标题译文获取方法。本章研究内容主要包括启发式查询构造,限定搜索引擎在特定的WEB数据库中检索相关网页资源;根据中文查询标题,返回的相关标题及其译文得到最长连续公共子串译文;经汉英词典或知网检索取得剩余子串的译文。最后,本章讨论了WEB返回相关结果数目及剩余子串的获取方法对于标题译文质量的影响。  第三,针对英文摘要正文句子结构单一、句式无变化,通过对中文信息学报英文摘要及ACL(Association for Computational Linguistics)摘要句子长短变化统计分析,本文提出了基于编辑距离的标准句长结构获取方法。以 ACL英文摘要句长变化为标准,对于研究者撰写的英文摘要,系统进行判定是否需要修改,并对需要修改的摘要给出相应的修改意见。
其他文献
网格是当前高性能计算方面研究的一个热点问题,被称为下一代计算机网络的基础。网格的目的是利用互联网把分散在不同地理位置的电脑组织成一台虚拟的超级计算机,实现计算资源
随着全球网络信息化的飞速发展,保障电子商务和电子政务系统安全的PKI/CA系统的数量也在不断增加,随之产生了许多相互独立的PKI/CA系统孤岛。从属于不同CA的用户为了验证相互之
带性能约束复杂布局问题,如印刷电路板(PCB)和航天器舱的布局方案设计及工厂机床设备布置问题等,属于NP-Complete问题,求解困难。在求解这些问题时,除了要求满足待布物间不干
表格处理软件是报表软件系统的不可缺少的重要组成部分,它控制各种格式报表的产生、展示与输出。表格处理软件的研究开发对于提高报表设计过程的可视性、易用性,提高报表设计
近年来无线传感器网络基于其深远价值与意义,一直被热门关注和研究。由于传感器节点之间通信能量开销占节点能量总开销的比重大,以及用户特殊查询目的等因素,用户有时想执行
随着我国城市化建设进程的加快,对城市水资源的供给需求也越来越大。在增强供给能力的同时也需要考虑减少不必要的损耗。供水损失率大一直是困扰供水行业的一大难题,其中各种各
学位
图像具有丰富且结构良好的视觉信息,但在传输或获取过程中往往受到噪声的干扰而产生误差。这不但对图像的视觉效果产生了很坏的影响,更给后续的图像分析处理带来了很大困难。
随着各种各样不同种类的信息越来越多的出现在互联网上,普通的搜索引擎已经很难满足用户特定的搜索需求,于是,基于主题的垂直搜索引擎应用而生,它能够针对用户不同的搜索需求在最
由于社会节奏的加快和生活压力的增加,心理压力逐渐成为影响人体身心健康与生活质量的重要因素,自动检测和衡量心理压力有利于个人及时掌握自身的压力状态并进行自我调节,避
Hash函数是一种重要的密码学原语,随着Hash函数研究的发展,对其安全性分析也不断深入。2004年美洲密码学大会上,王小云等人宣布了对于一系列Hash函数,包括MD4、MD5、HAVAL-12