论文部分内容阅读
科技文献是科研人员展示研究成果的主要形式之一,并能促进研究成果在学术界的交流与传播,推动科技文化向前发展。论文作者单位译文、论文标题译文和英文摘要都是科技论文中必不可少的部分。科研人员在撰写英文文献时,由于英文水平不足,通常借助于现有的机器翻译技术。虽然统计机器翻译技术取得了长足的进步,使用全自动机器翻译获取的译文多数情况下可以满足日常浏览的需求,但是在面对高质量英文文献写作时,机器辅助翻译仍然是更加现实的解决方案。 本文所指的科技论文摘要包括作者单位(中文组织机构名称)、论文标题和摘要正文,本文的主要研究内容是通过使用WEB检索技术和机器学习策略对科技论文摘要进行辅助翻译,具体包括以下三下方面: 第一,中文组织机构名称译文获取,运用WEB检索技术,结合机器学习策略解决作者单位的译文获取问题。本章研究内容主要包括启发式查询构造,不同的查询词构造方法与不同的搜索引擎对于译文召回率的影响;候选译文生成与过滤,候选译文集合中噪声信息对于分类与排序算法的影响;机器学习策略提取译文,在本章中,主要使用支持向量机分类与排序算法译文提取译文;并以译文提取为例,讨论了在不平衡数据中分类与排序算法的性能优劣。 第二,根据中文文献标题的特点和WEB译文获取技术研究对象的特点,本文提出了基于WEB检索技术的文献标题译文获取方法。本章研究内容主要包括启发式查询构造,限定搜索引擎在特定的WEB数据库中检索相关网页资源;根据中文查询标题,返回的相关标题及其译文得到最长连续公共子串译文;经汉英词典或知网检索取得剩余子串的译文。最后,本章讨论了WEB返回相关结果数目及剩余子串的获取方法对于标题译文质量的影响。 第三,针对英文摘要正文句子结构单一、句式无变化,通过对中文信息学报英文摘要及ACL(Association for Computational Linguistics)摘要句子长短变化统计分析,本文提出了基于编辑距离的标准句长结构获取方法。以 ACL英文摘要句长变化为标准,对于研究者撰写的英文摘要,系统进行判定是否需要修改,并对需要修改的摘要给出相应的修改意见。