异构信息网络相似性查询技术研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:Manjay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代对数据管理和数据分析技术提出了新的需求。异构信息网络(Heterogeneous information networks,HIN)具有丰富的语义信息,能表达复杂的数据相关性,目前在书目数据库、社交网络、化学和生物信息系统等领域得到了广泛的研究与应用。与传统的在线数据管理应用中需要对数据进行精确匹配不同,面向大数据的数据挖掘、数据分析和机器学习算法很多情况下需要测量数据相似度。图编辑距离(Graph edit distance,GED)是测量图数据相似度的最常用方法之一,它通过一系列编辑操作把一个图转换为另一个图,并用最小编辑代价来衡量两个图的相似度。本文首先通过引入异构信息网络中的编辑操作,将同构图中GED的概念扩展到异构信息网络,定义了异构信息网络编辑距离。由于图编辑距离计算是NP-Hard问题,本文采用异构星型结构和元路径作为基本语义,提出了两种映射距离来近似计算HIN编辑距离,分别为基于星型结构的映射距离和基于元路径的映射距离。基于星型结构的映射距离是同构图上GED近似算法在异构信息网络上的修改拓展版算法。本文分析了星型结构映射距离与HIN编辑距离的关系,提出了基于星形结构的异构信息网络编辑距离的上下界。基于元路径的映射距离利用元路径来表达异构信息网络特性,并用于近似计算HIN编辑距离。本文同样通过分析元路径映射距离与编辑距离的关系,给出了基于元路径的异构信息网络编辑距离的上下界。这些上下界被用于图相似性查询过滤验证,提高了异构信息网络相似性查询效率。由于图编辑距离计算关注HIN的结构信息,而忽视了语义信息,在某些应用中并不能准确度量两个异构信息网络的相似性。因此,本文提出了一种基于特征结构的异构信息网络相似性度量方法,定义了三种基本特征结构用于表达异构信息网络中的复杂语义信息,分别为:异构星形结构、异构环形结构和异构线性结构。本文基于特征结构重要性定义了主结构,并提出了两种特征结构序列提取方法,分别为基于剩余网络传播度的特征结构序列提取算法和基于特征结构连通度的特征结构序列提取算法。由此,异构信息网络相似性查询问题被转换为特征结构序列之间的相似性查询。本文引入权值函数,提出了一种加权的主结构序列相似度算法,从而提高了特征结构序列相似性查询的精度。基于真实数据集与合成数据集的实验表明,基于元路径的异构信息网络编辑距离上下界在计算时间、占用空间、边界近似度、图相似性查询过滤性能都要好于基于星形结构的上下界。基于特征结构的相似性查询算法较基于编辑距离的相似性查询算法有着更好的查询准确率。基于剩余网络传播度的特征结构序列提取算法比基于结构连通度的特征结构序列提取算法能更精确地表达异构信息网络的语义信息。加权主结构序列相似度算法也在异构信息网络相似性查询应用中表现出了出色的准确率、召回率和拓展性。
其他文献
泡沫混凝土具有质轻、保温性能好、密度可调节、自立性、高流动性等优点,如今在建筑保温、路基加宽、路基填筑等方面应用广泛,开展泡沫混凝土强度检测技术的研究有重要的现实意义。传统的拉拔法、回弹法和钻芯法不适用于泡沫混凝土强度检测,所以本文尝试用超声无损检测法对泡沫混凝土强度进行检测,建立泡沫混凝土超声测强曲线,为其在实际工程中的应用提供参考。本文共制作两组共计324个泡沫混凝土试件,第一组为264个10
燃料电池阴极的氧还原反应(ORR)对燃料电池的主要性能起着关键性作用,寻找成本低、催化效果好的阴极材料对燃料电池的商业化应用与发展具有重要意义。本文基于色散校正的密度泛函理论(DFT-D),研究了本征锑烯、Pt,Co原子修饰锑烯及锑烯/石墨烯复合结构作为燃料电池阴极催化材料,对各氧还原中间物O、OH、O2、OOH的吸附特性,模拟了氧还原反应过程,计算了各步反应自由能变化和活化势垒。研究结果表明:P
随着直流技术的发展进步以及直流工程的逐步投运,主流技术已由传统直流发展到柔性直流,由两端直流发展为多端直流,并将由多端直流技术进一步发展形成直流电网的结构。目前关于多端直流输电系统可靠性评估方面的研究还在如火如荼地逐步深入中,但尚未有考虑控制策略对其可靠性影响的研究,为了解决这个问题,本文将从建立多端直流输电系统的可靠性模型入手,提出了一种多端直流输电系统的建模方法,这种方法可以有效解决直接利用频
高中地理教学中的研学实践是当下日益蓬勃发展的研学实践的一个重要分支,越来越受到社会和学界的关注。博物馆的功能不仅仅在于保存、研究、展览还有重要的教育功能,它也是高
公司层面股价崩盘风险的影响因素是当前研究的热点问题,学者们主要围绕信息透明度和代理成本从内外部影响因素展开研究,而忽视了资产误定价对股价崩盘风险的影响。由于中国市场的复杂性和特殊性,例如市场个人投资者占主体地位的格局仍未改变,个人投资者专业知识匮乏、具有投机性和认知偏差;中国市场套利管制严格,不利于套利者利用误定价进行套利交易,以上因素导致市场对公司估值出现偏误且资产误定价现象长期存在难以消除。当
随着社交网络、物联网、电子商务等的应用和普及,当今数据发生爆炸性增长,在线聚集由于通过采样得到近似解,避免扫描整张表,提高了数据库中聚集操作的执行效率,因此被引入大
渭河盆地处于黄土高原和秦岭山脉的夹持之间,地形条件特殊,盆地自形成后堆积了巨厚的松散沉积层,给此地的地质勘探工作增加了难度。相对于传统的地质钻孔法、反射地震法等勘探手段,被动源面波法利用背景噪声数据可以对不同尺度的地下结构进行探测,具有经济便捷、数据处理简单等优点,所以本文选择了被动源面波法中的空间自相关法(Spacial Autocorrelation即SPAC)和Aki公式法对渭河盆地的地下速
市场经济国家均将垄断协议视为一种严重危害经济的行为。垄断协议通过提高价格、限定产量的方式限制竞争,它破坏了公平的市场竞争秩序,从而最终导致市场经济运行的低效率甚至出现滞缓。为了消除垄断协议的消极影响,一项源于美国的反垄断法宽恕制度被设计出来并引发其他国家纷纷效仿。宽恕制度经过实践检验证明在发现和查处垄断协议时作用明显,主要表现在提高反垄断机构执法能力和效率,维护市场竞争正常秩序,保护市场主体正当行
绝大部分现有的轨迹跟踪控制研究成果都基于已知的理想目标轨迹,然而在许多重要应用领域(如导弹拦截,卫星追踪,电力系统用电量调度及匹配等)中理想轨迹未必可以事先准确得到,
我们现在正处于大数据时代,大量的高维数据在各种领域中无处不在。当机器学习算法应用于高维数据时,一个关键问题被称为维度灾难。特征选择被认为是解决维度灾难问题的最有效