大规模中文机构名称与机构地址自动翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:benxiaohai741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,为了让更多的国外企业了解到国内的生产厂家信息,及时进行业务联系,经济信息之间的交流尤其是作为“企业身份证”的组织机构代码信息的交流变得非常重要,充分利用现有自然语言研究的成功,突破组织机构代码国际交流的瓶颈,已经是一件可行的事情。  本文的研究内容主要是机构名称和机构地址这类命名实体的翻译技术。虽然近年来命名实体翻译的研究有所增多,但无论是通用的机器翻译技术、单纯的音译技术还是NE对齐的技术,它们各自都存在着自身难以克服的局限性。  本文的研究对象具有特殊性,它并非长文本中的机构名称和机构地址,而是全国组织机构代码管理中心接受的注册过的机构名称和机构地址,因此它具有每条记录相对简短、满足一定的规律性、总体数据量大、包罗了各行各业的机构名称和复杂程度不同的机构地址、未登录词多等特点。结合以上特点,本文给出了一种基于模板匹配的机构名称识别和翻译的方法和一种基于模板匹配和基于规则相结合的中文机构地址的翻译方法。本文的主要以下几个方面:  1.通过对机构名称的结构分析发现了它的构成规则,并采用基于AP的正向最大匹配切分和基于PPOP的逆向最大匹配切分两种并行分词方法对机构名称进行分词,然后对两种切分结果进行基于词性码的合并,并按照一定的规则对歧义字段进行消歧,最后对每个节点进行翻译得到最后的翻译结果。  2.通过对机构地址构成的总结,将机构地址细分为四种类型的地址单元构成,并在切分的时候采用优先切分模式将法定地名和长地名切分出去,然后再对剩下的字段进行基于地址单元的切分,将切分后的地址进行相应地址单元的翻译并组合即得到机构地址的翻译。  3.在上述方法的指导下,本文给出了机构名称和机构地址的汉英翻译系统的设计和实现方法。  4.通过分析知识库使用流程,研究出了能够避免冲突且可以选出最优规则的知识库维护规则。
其他文献
随着网络技术的广泛应用,电子商务、电子政务、网上银行等网上交易也得到了迅速发展。在进行各种网上交易时,网络上信息的安全问题成为人们关注的焦点。CA负责为这些网上交易签
DCS(分布式控制系统)在现代工业现场已经运用多年,虽然近些年来不断受到新的控制系统的挑战,但是其庞大的市场应用以及随着技术进步不断提出适应新的需求的发展方向,必将使其
随着网络技术的发展,Agent以及多Agent系统(Multi-Agent System-MAS)已经成为研究的热点。由于Agent的自治性、智能性等特点,利用它可以为系统的集成提供一个崭新的途径,实现
脊波双框架系统是一种基于脊波的新的图像表示系统,它继承了脊波的核心思想即将空间中的“线奇异”转化为“点奇异”,再用小波变换处理这些点奇异,同时,它克服了以往用于图像
传统的GIS信息资源被扩展到互联网上,这为不断增长的GIS用户需求提供了丰富的数据资源。随着越来越多符合规范的稳定易用的空间信息服务被发布到网络上,如何有效地获取、管理
现代快速发展而多变的商务环境,要求企业级应用系统能够迅速适应不断变化发展的业务需求,从而适应新形势下的业务战略的快速部署,而传统的业务解决方案已无法满足这种需求。
利用三维重建技术获取场景3D几何结构的建模方式,能够摆脱传统三维建模繁琐的人工交互模式,使得三维建模过程变得更为简单方便。并且在3D电影,电子游戏,以及三维测量等领域有
随着计算机和互联网的快速发展,平板电脑、电子书写板、各种数码笔等电子笔输入设备得到了广泛应用,用户能在更大的界面上自由地、无约束地输入文本信息。因此,联机连续手写字符
超分辨率图像重建是一个利用多帧具有互补信息的低分辨率图像复原出一幅高分辨率图像的过程。这项技术在遥感、军事、医学和公共安全等领域具有十分重要的应用价值和广阔的应
目前,UML已经成为软件建模的标准语言,UML状态图描述了系统在其生命周期中的动态行为。随着系统规模的扩大和复杂度的提高,UML状态图往往包含设计者所未预料到的隐患,如何保