水务知识图谱构建的技术研究与系统实现

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:hghkjhnnggh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着水利信息的发展,水务数据存在的多源异构性和数据量庞大等问题越来越严重。北京市水务局内部拥有大量结构化监测数据和非结构化文本数据,且数据存储位置多样化,除此之外网络上也存在大量水务相关数据。需要从对象分类层面以及数据类型层面对这些数据进行整合,从而进一步实现数据的共享以便于水务相关人员查询数据。基于当前水务数据的分布和用户对综合数据的需求,有必要开发一种能够集成大量多源异构数据并进行应用的模型。利用知识图谱,可以进行数据的整合以及知识的可视化和信息推荐。因此,面对上述这些情况,本文需要寻找针对于水务数据的知识图谱的构建方法,从而建立一个水务知识图谱构建系统,实现知识图谱在水务业务中的应用。本文全面介绍了水务知识图谱构建和应用过程的相关技术,主要包含以下几方面工作:首先,需要更深入地了解知识图谱的构建背景以及现状,现有的数据特点和知识图谱的应用现状等问题。本文选择自顶向下和自底向上相结合的综合性方法来构建水务顶层知识图谱,借鉴了Wordnet词库、Dbpedia词典、水行业标准文档及水务专家知识经验。其中结构化数据使用的是D2RQ工具执行的RDF文本的数据转换,非结构化数据运用Jieba进行文本分词,连接CN-Dbpedia网络词典扩展词汇信息,并使用Jena工具实现RDF文本的转换。转换后的RDF文件与先前构建好的水务顶层知识图谱进行实体对齐,以实现结构化数据与非结构化文本数据的挂接。最后基于构建的水务知识图谱完成水务信息的推荐。在实体对齐的过程中,分别尝试使用编辑距离算法、Jaccard算法和欧式距离算法对结构化数据进行分类挂接。同时,分别使用LDA算法、LSI算法和TF-IDF算法对非结构化数据进行分类挂接。经过对比实验与结果的分析,发现编辑距离算法和LDA算法的评价结果均优于其它几种算法的评价结果,从而验证了水务知识图谱构建的有效性和准确性。基于构建好的水务知识图谱,制定相关查询规则并使用语义距离算法进行水务信息推荐。推荐结果不但实现了水务信息的共享,而且验证了所构建的水务知识图谱的准确性。本文在开发层面采用Xitrum框架,建立了水务知识图谱的构建系统,并详细的说明了每个系统的主要功能以及各个子模块的功能,最后对主要页面进行了展示。水务知识图谱的构建系统依托于《水体污染控制与治理科技重大专项》这一国家级项目,对水务行业的数据进行全方位的整合,能够在未来的决策等事件中发挥重大作用,具有实际的意义。
其他文献
通过总结国内外健康住宅的发展历程,分析健康住宅的建设理念及其中健身体系的构建模式,结合对国内外运动医学社区化发展的总结,提出在我国健康住宅内以运动医学作为理论指导
抗日战争中的沧州回族,在残酷恶劣的环境下展开对敌斗争,从弱到强,越战越勇,既积累了宝贵经验,又展示出许多特点。主要有:斗争形式的多样性、参加抗日层面的广泛性、与汉族团
<正>在"一带一路"战略中,中央对民航的要求是:"拓展建立民航全面合作的平台和机制,加快提升航空基础设施水平。"新疆自治区党委提出加快建设区域性交通枢纽中心等"五大中心"
跌落伤给儿童青少年及其家庭带来了沉重的疾病负担和经济负担。疾病经济负担不仅增加了家庭的成本,同样造成了社会财富的流失。了解疾病经济负担的影响因素对降低疾病经济负担有重要意义,目前对于跌落伤经济负担影响因素的研究局限于直接医疗经济负担和间接经济负担影响因素的定量研究,本研究通过从专家、医疗卫生机构以及患者角度的相关研究,结合专家咨询、定量分析、质性研究对儿童青少年跌落伤经济负担影响因素进行了系统全面
当今社会环境日益恶化,污染物控制策略与新型燃烧工艺研发刻不容缓。为了深入探究ODPP/OESC燃烧过程,本文通过一维线形对冲火焰实验系统和cosilab仿真模拟平台,对稀氧部分预
<正>1938年9月27日,萧华率八路军东进抗日挺进纵队到达冀鲁边区。短短一年时间里,萧华以他的文韬武略、雄才大智,发动民众,建党立政,团结友军,痛歼日顽,开创了冀鲁边区抗战工
目的:以乙酰胆碱和抗坏血酸为核心,针对其在活体大鼠海马脑区的动态变化规律问题,利用脑内微透析技术和生命分析化学方法,以有氧游泳运动作为运动模型,在操作式条件反射和被
背景缺血性心脏病是严重危胁人类健康的主要疾病之一。研究显示,近年来我国因缺血性心脏病住院的患者人数及治疗费用持续高速增长,给社会公共卫生管理、医保基金、患者家庭及
盗窃和诈骗是常见的侵财犯罪手段。通常情况下,盗窃罪和诈骗罪(包括特殊的诈骗罪)是比较容易分辨的,但在盗窃和诈骗两种犯罪手段交织的情况下,是定盗窃罪还是定诈骗罪,往往存在争议
报纸
目的:探讨容积CT数字减影血管造影(VCTDSA)和三维数字减影血管造影(3D-DSA)在颅内动脉瘤诊断中的价值比较。方法:回顾性分析2011年7月至2012年2月同时行VCTDSA及3D-DSA检查的疑似动