论文部分内容阅读
研究非规范化中文地址的智能匹配技术的目的是对地址匹配领域涉及的技术深入探讨,解决非规范中文地址向地理坐标转换的问题。地址记录在很多业务系统中占有很重要的位置,在业务系统中大量存在,是经济和生活发生各种联系的纽带。地址信息在邮件、物流、人口、客户、税务、工商等系统都有记录。虽然很多业务系统都有地址信息但缺少相应的地理坐标,不便于做空间分析、空间数据挖掘和属性数据与空间数据的融合。地理信息系统(GIS)是重要的管理和决策系统,主要用于查找地理位置、规划、选址、制作专题图等。地理信息系统运行离不开空间数据的支持,很多与地址密切相关的信息由于缺少能够被GIS系统处理的地理坐标,无法制作各类专题图。使用人工采集地址点对应的地理坐标,无论是到现场采集还是使用高分辨率影像标注采集,周期长成本高。地址匹配技术实现了自动由地址获得相应的地理坐标,降低了地理位置获取的成本。虽然地址匹配技术在美国已经取得广泛应用,有很多美国信息技术公司提供了地址匹配软件,但这些成熟的产品和技术并不适合我国的国情;无论是语言还是地址描述方式都有很大的差异,解决不了中文地址匹配的问题。再次国内有相关的科研人员和公司为解决中文地址匹配,根据我国的国情研究多种不同的匹配技术,这些匹配技术对非规范化中文地址处理效果不理想,无法兼顾匹配率和匹配的精度。综合以上三点原因,确定以非规范化中文地址匹配技术为研究对象,解决非规范中文地址的匹配问题。
本文从自然语言理解角度出发,以理解地址表示的空间语义作为解决非规范中文地址问题的突破点。开展的具体研究工作如下:
1)中文地址标准化。研究已有的行业中文地址标准,分析中文地址的特征,论述了地址标准化必要性,地址标准化是地址库建设的基础。
2)地址库存储模型以及地址数据采集。地址库是以一定的地址标准为依据建设,是地址匹配应用中关键的环节。以地址模型为核心,提出了中文地址库存储模型,对存储对象之间的关系作深入的分析。地址数据采集是解决地址库数据来源的重要环节,通过对比各种数据采集技术,指出各种技术所适用的场景;由于数据采集牵涉到人为因素,给出了提高采集数据质量的方法。
3)非规范化中文地址分割。地址分割是智能匹配算法重要的支撑技术。由于中文在文字描述形式上没有分隔符,需要以地址要素为逻辑单位对中文地址分割。中文地址的组成要素主要是地名和组织机构名,统称为命名实体(NE),因此地址分割的实质是解决命名实体识别的问题。有关中文命名实体研究主要是针对人名和地名。由于地名是相对固定的,地址库能基本实现全覆盖,所以问题的难点是组织机构名称识别;根据地址的结构特征,本文提出了词典库与规则库相结合的解决方法。
4)非规范化中文地址要素标注。地址要素标注是为了解决地址要素类型判定和地址类型识别。基于隐马尔可夫模型(HMM)标注技术首先在语音识别领域应用,是目前求解序列标注常用的方法;由于HMM对约束条件的处理不足。本文在使用HMM与规则相结合的方法解决地址要素标注问题。
5)非规范化中文地址的智能匹配。非规范化中文地址在地址描述中占有很大的比重,由于同一地址点有多种语义描述,只有匹配系统能够对地址表达的语义理解,才能得到正确的匹配结果。本文通过引入自然语言的知识推理技术,实现空间语义地址匹配。
6)设计开发了非规范化中文地址智能匹配原型系统。地址匹配系统是一个复杂的系统,本文提出的原型系统涵盖了地址匹配系统三大主要功能:非规范化地址匹配、地址库管理、地址样本训练,初步构建了完整地址匹配系统的雏形。
本文在研究过程中取得了以下两点原创性成果:
1)提出了隐马尔可夫模型与规则相结合的地址解析算法:地址要素解析包括地址要素分割和地址要素标注。地址要素分割是把地址分割为地名(单位名)和门牌号列表;由于地名库只覆盖到部分地名,本文提出了使用地名特征规则和上下文相结合确定未在地名库中登录地名的在地址中的上界和下界,根据上下文解决分割歧义。地址要素标注解决了地址要素类型识别的问题;由于样本数据有限,需要使用参数平滑技术训练样本,为纠正平滑参数引起的错误,本文引入地址规则,在运用Viterbi算法的过程中结合地址规则约束;在地址分割与标注过程中的改进,使得地址要素解析的准确率有很大提高。
2)提出了基于知识推理的非规范中文地址的智能匹配算法:以地址要素作为语义基本单位,即知识表示的基本单位,标准地址库构成知识库,地址匹配的过程为知识推理,推理演绎的规则依据中文地址模型;算法的适应能力更强,实现规范与非规范地址的匹配空间语义匹配,解决目前中文地址匹配算法匹配率低的问题。
取得的一般创新点有:
1)提出了中文地址模型:直接地址模型和参考地址模型。通常在中文地址中,地址要素代表的地理区域从左到右是包含关系或邻接关系,并且范围逐渐缩小。在一些地址描述中通常遇到以某一地点为参照的地址,如“××东200米”。直接地址模型采用树形结构描述,用于表达一般的地址。参考地址模型是直接地址模型的复合,用于表达相对地址。这两种地址模型能够表达我国绝大部分居民地址、单位地址。
2)提出了中文地址库模型:基于直接地址模型,设计了中文地址库数据逻辑模型,并给出了地址库维护的方法。