论文部分内容阅读
随着经济的发展,为了让更多的国外企业了解到国内的生产厂家信息,及时进行业务联系,经济信息之间的交流尤其是作为“企业身份证”的组织机构代码信息的交流变得非常重要,充分利用现有自然语言研究的成功,突破组织机构代码国际交流的瓶颈,已经是一件可行的事情。 本文的研究内容主要是机构名称和机构地址这类命名实体的翻译技术。虽然近年来命名实体翻译的研究有所增多,但无论是通用的机器翻译技术、单纯的音译技术还是NE对齐的技术,它们各自都存在着自身难以克服的局限性。 本文的研究对象具有特殊性,它并非长文本中的机构名称和机构地址,而是全国组织机构代码管理中心接受的注册过的机构名称和机构地址,因此它具有每条记录相对简短、满足一定的规律性、总体数据量大、包罗了各行各业的机构名称和复杂程度不同的机构地址、未登录词多等特点。结合以上特点,本文给出了一种基于模板匹配的机构名称识别和翻译的方法和一种基于模板匹配和基于规则相结合的中文机构地址的翻译方法。本文的主要以下几个方面: 1.通过对机构名称的结构分析发现了它的构成规则,并采用基于AP的正向最大匹配切分和基于PPOP的逆向最大匹配切分两种并行分词方法对机构名称进行分词,然后对两种切分结果进行基于词性码的合并,并按照一定的规则对歧义字段进行消歧,最后对每个节点进行翻译得到最后的翻译结果。 2.通过对机构地址构成的总结,将机构地址细分为四种类型的地址单元构成,并在切分的时候采用优先切分模式将法定地名和长地名切分出去,然后再对剩下的字段进行基于地址单元的切分,将切分后的地址进行相应地址单元的翻译并组合即得到机构地址的翻译。 3.在上述方法的指导下,本文给出了机构名称和机构地址的汉英翻译系统的设计和实现方法。 4.通过分析知识库使用流程,研究出了能够避免冲突且可以选出最优规则的知识库维护规则。