论文部分内容阅读
随着语义网的迅速发展,RDF(Resource Description Framework)格式的数据广泛应用于百科全书、地理信息、生命科学等领域。在海量数据的压力下,传统的RDF关键词近似搜索方法已不能满足需求,研究高效的大规模RDF数据的分布式关键词近似搜索方法势在必行。本文充分利用RDF本体的语义信息,结合Hadoop平台和Redis内存数据库提出一种分布式RDF关键词近似搜索算法,该算法具有较高的搜索效率和较好的搜索效果。借助Storm平台和DRPC(分布式远程过程调用),提出一种基于Storm的实时关键词近似搜索算法,解决了 Hadoop无法处理流式数据的问题,并且进一步提高了搜索的效率。结合某部队装备远程监控与故障诊断的应用场景,将本文的算法运用于实际项目中。本文的主要工作内容如下:首先,本文提出一种分布式RDF关键词近似搜索算法DKASR(Distributed Keyword Approximate Search algorithm for RDF)。该算法结合 RDF 的本体信息,构建关键词集合对应的本体子图,提出一种语义评分函数对本体子图进行评分排序,借助MapReduce计算模型实现分布式并行搜索,当返回的结果没有达到Top-k时,对本体子图进行扩展生成近似本体子图,使用语义相似度函数对近似本体子图进行排序,再利用MapReduce计算模型实现并行搜索,直到返回Top-k结果。接着,针对DKASR算法数据存储空间较大和无法实时搜索流式数据的问题,提出一种基于Storm的实时关键词近似搜索算法RKASS(Real-time Keyword Approximate Search algorithm based on Storm)。该算法提出一种分布式存储方案来存储流式数据,为了减少数据存储占用的内存,提出一种哈希编码压缩策略对RDF数据的前缀进行编码压缩,并构建对应的哈希映射信息,同时利用Storm实现数据的实时流入。并且在关键词映射匹配的时候,充分利用历史数据来跳过不必要的步骤,加快关键词近似搜索的进程。此外,借助Storm实现并完成本体子图的构建排序、近似本体子图的构建排序、结果子图的构建以及编码的反转,而且通过调用DRPC服务器即可轻松完成流式数据的实时关键词近似搜索。最后,将本文提出的算法运用于“微激光装备远程监控与故障诊断系统”中。分析项目中微激光装备故障案例数据的特点,使用本体构建方法构建项目的知识库,并在项目中实现高效的关键词近似搜索功能。