论文部分内容阅读
随着水利信息的发展,水务数据存在的多源异构性和数据量庞大等问题越来越严重。北京市水务局内部拥有大量结构化监测数据和非结构化文本数据,且数据存储位置多样化,除此之外网络上也存在大量水务相关数据。需要从对象分类层面以及数据类型层面对这些数据进行整合,从而进一步实现数据的共享以便于水务相关人员查询数据。基于当前水务数据的分布和用户对综合数据的需求,有必要开发一种能够集成大量多源异构数据并进行应用的模型。利用知识图谱,可以进行数据的整合以及知识的可视化和信息推荐。因此,面对上述这些情况,本文需要寻找针对于水务数据的知识图谱的构建方法,从而建立一个水务知识图谱构建系统,实现知识图谱在水务业务中的应用。本文全面介绍了水务知识图谱构建和应用过程的相关技术,主要包含以下几方面工作:首先,需要更深入地了解知识图谱的构建背景以及现状,现有的数据特点和知识图谱的应用现状等问题。本文选择自顶向下和自底向上相结合的综合性方法来构建水务顶层知识图谱,借鉴了Wordnet词库、Dbpedia词典、水行业标准文档及水务专家知识经验。其中结构化数据使用的是D2RQ工具执行的RDF文本的数据转换,非结构化数据运用Jieba进行文本分词,连接CN-Dbpedia网络词典扩展词汇信息,并使用Jena工具实现RDF文本的转换。转换后的RDF文件与先前构建好的水务顶层知识图谱进行实体对齐,以实现结构化数据与非结构化文本数据的挂接。最后基于构建的水务知识图谱完成水务信息的推荐。在实体对齐的过程中,分别尝试使用编辑距离算法、Jaccard算法和欧式距离算法对结构化数据进行分类挂接。同时,分别使用LDA算法、LSI算法和TF-IDF算法对非结构化数据进行分类挂接。经过对比实验与结果的分析,发现编辑距离算法和LDA算法的评价结果均优于其它几种算法的评价结果,从而验证了水务知识图谱构建的有效性和准确性。基于构建好的水务知识图谱,制定相关查询规则并使用语义距离算法进行水务信息推荐。推荐结果不但实现了水务信息的共享,而且验证了所构建的水务知识图谱的准确性。本文在开发层面采用Xitrum框架,建立了水务知识图谱的构建系统,并详细的说明了每个系统的主要功能以及各个子模块的功能,最后对主要页面进行了展示。水务知识图谱的构建系统依托于《水体污染控制与治理科技重大专项》这一国家级项目,对水务行业的数据进行全方位的整合,能够在未来的决策等事件中发挥重大作用,具有实际的意义。