论文部分内容阅读
长期以来,地质调查领域积累了海量的数据,中国已建成10大类48个国家地质数据库,数据量超过700T,地质工作进入了数据密集型模式。地质大数据研究工作得到了国内外空前的重视,美英等国的地质调查机构都认识到地质大数据研究和应用的重要性,并制定了相应的地质大数据研究行动计划,我国也启动了地质云平台的建设。地质大数据属于时空大数据的一种,采用大数据技术直接在海量地质数据中挖掘知识,能突破“采样随机性和样本空间狭小”的传统地质数据分析方法的限制,可以推进数据驱动的地质智能服务,改变传统地质数据应用和协同服务能力不足的现状,促进地质科学的发展。大数据的表示与关联是大数据研究领域的热点,但是当前地质领域对大数据的表示及关联方面的研究还不足。由于地质对象存在着“参数信息不完全、结构信息不完全、关系信息不完全和演化信息不完全”的状况,对地质实体各种来源的信息进行关联显得尤为重要,而关联首先需要获取实体不同模态信息的合理表示。同样,对于关联的地质对象,通过合理的模型对其结构、属性和关联关系特征进行表示也便于后续的语义查询,聚类等其他任务。本文关注的问题首先是地质空间实体对象和其外部描述文本的关联,构建关联之后可以实现“图文互查”的地质资料应用模式;另外对于地质文本中的命名实体抽取研究工作已经开展,但是对抽取出的地质实体间的关联与表示方法还缺少研究。本文立足于地质大数据的信息服务应用需求,应用表示学习方法,深入研究了地质领域文本数据与空间数据的语义相似度计算问题,同时也对地质实体信息网络的构建及网络表示问题进行了深入的探讨,最后实现了一个具有一定实用功能的原型系统对部分方法进行了验证,以期为地质资料整合提供新方法,为地质资料信息提取和应用提供新范式。本文的主要研究内容如下:(1)地质大数据特征及相关表示技术分析。对所要研究的地质大数据的构成及相关表示技术进行了总结与分析,明确了地质大数据的组织与管理模式,对地质空间大数据和地质文本大数据的特征及当前的表示技术进行了梳理,探讨了引入自然语言处理领域模型对地质空间实体和文本对象进行表示的可行性。(2)基于句向量组合的层次化地质空间实体语义化表示方法。地质空间实体与其相关文本描述虽然都是对同一地质对象的表达,但在二者构建关联时却存在信息不对称、语义表达模式不一致等情况,本文选择段落作为地质文本对象的表示粒度,同时定义了富文本型地质空间实体的概念,设计了基于句向量组合的层次化地质空间实体语义化表示方法,把地质空间实体的属性和空间拓扑特征转化为句向量序列,把两类对象映射到统一的语义空间,解决了地质空间实体与地质文本的语义表达不一致问题。(3)用于地质空间实体与描述文本匹配的带注意力机制的层次化孪生网络模型。在对地质空间实体与地质文本合理表示的基础上,针对二者的匹配问题提出了一种带注意力机制的层次化孪生网络模型,该模型能够避免复杂的命名实体识别和语法语义分析等手工特征工程,有效学习到两类对象面向关联匹配任务的低维、实值语义向量表示,通过合理的损失函数设计,使训练过程中模型能够最小化匹配样本对向量之间的距离,同时最大化不匹配的样本对之间的距离,实验结果表明模型具有较好的性能。(4)基于本体映射的地质实体信息网络构建及表示方法。针对地质领域文本信息提取中地质实体间缺少语义关联的情况,设计了地质领域本体库,并基于本体库进行地质命名实体标注与命名实体识别及关系映射,进而构建了地质实体信息网络。通过对网络结构进行分析,指出其具有超边的性质,根据地质领域特点定义了星形地质实体信息网络模式,并制定了四种超边构建策略;利用表示学习模型对构建的地质实体信息网络进行了表示学习,定义了超边中节点不可分解的一阶相似性及邻接点越相似则实体表示越接近的二阶相似性,实验证明利用学习模型得到的地质实体节点表示可以有效用于多标签节点分类与节点相似性查询。(5)地质大数据表示与关联原型系统设计及实现。构建了地质大数据表示与关联原型系统,设计了系统架构以及数据处理模式、访问模式、计算模式。设计实现了多类型文件解析器来对各类型地质文本数据进行解析、归并与同构;提出了海量碎片化小体量文件的存储策略,集成了分词和向量化等常用的功能,构建了高效的地质大数据索引模型实现了地质大数据的高效检索,在平台中对地质资料进行了位置感知服务及图文关联查询等相关测试,结果符合预期。