非规范中文地址的智能匹配技术

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:my_wenzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究非规范化中文地址的智能匹配技术的目的是对地址匹配领域涉及的技术深入探讨,解决非规范中文地址向地理坐标转换的问题。地址记录在很多业务系统中占有很重要的位置,在业务系统中大量存在,是经济和生活发生各种联系的纽带。地址信息在邮件、物流、人口、客户、税务、工商等系统都有记录。虽然很多业务系统都有地址信息但缺少相应的地理坐标,不便于做空间分析、空间数据挖掘和属性数据与空间数据的融合。地理信息系统(GIS)是重要的管理和决策系统,主要用于查找地理位置、规划、选址、制作专题图等。地理信息系统运行离不开空间数据的支持,很多与地址密切相关的信息由于缺少能够被GIS系统处理的地理坐标,无法制作各类专题图。使用人工采集地址点对应的地理坐标,无论是到现场采集还是使用高分辨率影像标注采集,周期长成本高。地址匹配技术实现了自动由地址获得相应的地理坐标,降低了地理位置获取的成本。虽然地址匹配技术在美国已经取得广泛应用,有很多美国信息技术公司提供了地址匹配软件,但这些成熟的产品和技术并不适合我国的国情;无论是语言还是地址描述方式都有很大的差异,解决不了中文地址匹配的问题。再次国内有相关的科研人员和公司为解决中文地址匹配,根据我国的国情研究多种不同的匹配技术,这些匹配技术对非规范化中文地址处理效果不理想,无法兼顾匹配率和匹配的精度。综合以上三点原因,确定以非规范化中文地址匹配技术为研究对象,解决非规范中文地址的匹配问题。   本文从自然语言理解角度出发,以理解地址表示的空间语义作为解决非规范中文地址问题的突破点。开展的具体研究工作如下:   1)中文地址标准化。研究已有的行业中文地址标准,分析中文地址的特征,论述了地址标准化必要性,地址标准化是地址库建设的基础。   2)地址库存储模型以及地址数据采集。地址库是以一定的地址标准为依据建设,是地址匹配应用中关键的环节。以地址模型为核心,提出了中文地址库存储模型,对存储对象之间的关系作深入的分析。地址数据采集是解决地址库数据来源的重要环节,通过对比各种数据采集技术,指出各种技术所适用的场景;由于数据采集牵涉到人为因素,给出了提高采集数据质量的方法。   3)非规范化中文地址分割。地址分割是智能匹配算法重要的支撑技术。由于中文在文字描述形式上没有分隔符,需要以地址要素为逻辑单位对中文地址分割。中文地址的组成要素主要是地名和组织机构名,统称为命名实体(NE),因此地址分割的实质是解决命名实体识别的问题。有关中文命名实体研究主要是针对人名和地名。由于地名是相对固定的,地址库能基本实现全覆盖,所以问题的难点是组织机构名称识别;根据地址的结构特征,本文提出了词典库与规则库相结合的解决方法。   4)非规范化中文地址要素标注。地址要素标注是为了解决地址要素类型判定和地址类型识别。基于隐马尔可夫模型(HMM)标注技术首先在语音识别领域应用,是目前求解序列标注常用的方法;由于HMM对约束条件的处理不足。本文在使用HMM与规则相结合的方法解决地址要素标注问题。   5)非规范化中文地址的智能匹配。非规范化中文地址在地址描述中占有很大的比重,由于同一地址点有多种语义描述,只有匹配系统能够对地址表达的语义理解,才能得到正确的匹配结果。本文通过引入自然语言的知识推理技术,实现空间语义地址匹配。   6)设计开发了非规范化中文地址智能匹配原型系统。地址匹配系统是一个复杂的系统,本文提出的原型系统涵盖了地址匹配系统三大主要功能:非规范化地址匹配、地址库管理、地址样本训练,初步构建了完整地址匹配系统的雏形。   本文在研究过程中取得了以下两点原创性成果:   1)提出了隐马尔可夫模型与规则相结合的地址解析算法:地址要素解析包括地址要素分割和地址要素标注。地址要素分割是把地址分割为地名(单位名)和门牌号列表;由于地名库只覆盖到部分地名,本文提出了使用地名特征规则和上下文相结合确定未在地名库中登录地名的在地址中的上界和下界,根据上下文解决分割歧义。地址要素标注解决了地址要素类型识别的问题;由于样本数据有限,需要使用参数平滑技术训练样本,为纠正平滑参数引起的错误,本文引入地址规则,在运用Viterbi算法的过程中结合地址规则约束;在地址分割与标注过程中的改进,使得地址要素解析的准确率有很大提高。   2)提出了基于知识推理的非规范中文地址的智能匹配算法:以地址要素作为语义基本单位,即知识表示的基本单位,标准地址库构成知识库,地址匹配的过程为知识推理,推理演绎的规则依据中文地址模型;算法的适应能力更强,实现规范与非规范地址的匹配空间语义匹配,解决目前中文地址匹配算法匹配率低的问题。   取得的一般创新点有:   1)提出了中文地址模型:直接地址模型和参考地址模型。通常在中文地址中,地址要素代表的地理区域从左到右是包含关系或邻接关系,并且范围逐渐缩小。在一些地址描述中通常遇到以某一地点为参照的地址,如“××东200米”。直接地址模型采用树形结构描述,用于表达一般的地址。参考地址模型是直接地址模型的复合,用于表达相对地址。这两种地址模型能够表达我国绝大部分居民地址、单位地址。   2)提出了中文地址库模型:基于直接地址模型,设计了中文地址库数据逻辑模型,并给出了地址库维护的方法。
其他文献
记者从省委组织部获悉 ,根据民主推荐和个别谈话推荐情况 ,中组部山西干部考察组将对我省优秀中青年干部进行考察 ,考察对象的初步人选是(按姓氏笔划为序) :牛仁亮(省发展计划委
江总书记“三个代表”的重要思想阐明了我们党的立党之本、执政之基、力量之源,丰富和发展马克思主义的建党学说。同时,也是对党的各级组织和广大党员提出了更高更严的新要求
中国寒区分布广阔,其中多年冻土区面积约占了寒区面积的53%,高寒山区往往是中国干旱与半干旱区水资源的发源地,也是对气候变化响应的敏感区域,研究寒区的水文规律和气候变化对寒区
党的十五届四中全会通过的《中共中央关于国有企业改革和发展若干重大问题的决定》指出:坚持党的领导,发挥国有企业党组织的政治核心作用,是一个重大原则,任何时候都不能动摇
随着我国城市居住区建设的迅速发展和人居环境理论研究的逐步深入,各种城市居住区宜居评价指标体系也应运而生,但其中关于下垫面因素对居住环境影响的研究不够深入且缺乏针对
文章提出应从“三个代表”的内在要求把握和实践“三个代表”,这主要体现在:要紧密联系国际国内两个大局;要坚持历史唯物论立场;要进行理论和实践的前沿性思考;要着力于把党建设好
气候变化是21世纪的重要议题,持续增长的碳排放对全球生态环境造成巨大的威胁,如何降低能源消耗及CO2的排放,即实现低碳的城市发展路径已成为世界各国追求的发展目标,也成为学术
最近 ,中央电视台《焦点访谈》报道了我省上亿元扶贫资金被挪用的新闻 ,看后令人震惊、令人痛心。投放扶贫资金是国家实现扶贫攻坚战略的一项重要措施。扶贫资金使用的好坏 ,
土壤有机质时空变异研究主要集中在两个方面:第一,集中在景观结构中地域分异规律方面,较少见到从景观类型出发建立土壤有机质分布定量模型的报导。第二,集中在一种或几种影响
社会发展的根本宗旨是“人人共享、普遍受益”,让人们受到同等的尊重和关照,让大家共享社会发展的成果,让更多的人获得平等的公民权利,已经成为共识并亟待解决的新课题。长期