大规模动态图节点相似性度量方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:cailing12530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为计算机学科中常用的一种数据结构,它可以有效地表达对象之间广泛存在的联系,比线性表和树更加复杂,具备更一般性的表达能力,如道路交通网问题、Web语义分析问题、社交网络分析、生物信息网、地理信息网等。越来越多的应用场景需要依靠图数据结构来处理,同时图数据规模的不断增大带来了诸多挑战和分析,对其进行相关研究有非常重要的意义。大规模动态图演化过程中节点相似度度量和聚类被作为一种图关系的基础研究,该内容被众多学者进行深入研究。传统的研究大多集中静态图、累积动态图上相似子图查询和子图挖据的相关研究成果,本文研究大规模动态图演化过程中节点相似度度量和基于节点相似度的聚类。由于目前对于大规模动态图节点相似度度量和聚类研究较少,所以本文提出了大规模动态图中节点相似性分类度量方法。针对上述问题,本文提出了大规模动态图中节点相似性分类度量方法,该方法包括数据预处理处理、节点相似度计算、节点相似度分段。为了解决大规模动态图的存储和处理问题,本文采用了Spark分布式计算框架中的GraphX类库中的算子,该计算框架封装了图的基本计算类库,使得算法运行和实现较为高效。首先数据预处理阶段,本文获得大规模动态图演化过程中快照的边集合和顶点集合,把边集合和顶点集合转化为两个nodes.csv、edges.csv文件,然后利用GraphX算子读取两个nodes.csv、edges.csv文件。其次节点相似度计算阶段,节点相似度计算可以分为相邻节点相似度计算和连续时间段的节点相似度计算(非相邻节点相似度计算),nodes.csv、edges.csv文件作为计算节点相似度的输入文件,根据边集合和顶点集合,利用GraphX计算相邻两个节点的相似度。在已知相邻节点相似度,利用相邻节点相似度计算连续时间段的非相邻节点相似度,该算法是一个递归算法,最终实现相邻节点相似度计算和连续时间段的节点相似度计算。再次节点相似度分段阶段,根据时间序列约束的聚类方法,把节点相似度聚类为不同的簇分段,不同的聚类导致不同的段内相似度和段间相似度。对于聚类的分段结果,根据聚类结果评价公式计算Goodvalue值,选择Goodvalue值最大的聚类结果,作为最优的分段结果。最后通过在两个数据集的实验室,验证了本文算法在存储开销和执行效率上有明显的优点,然后根据不同数据集聚类产生的Goodvalue值,选择出不同数据集的最优分段。
其他文献
长周期相是镁合金中一类特殊强化相,因其对镁合金综合力学性能具有显著的强化作用,受到广泛关注。但由于长周期相结构复杂,其变形机制尚不明确。由于变形结构从本质上影响着材料的力学性能,因此弄清长周期相的变形机制可以为长周期相强化型合金设计及加工工艺制定提供重要的理论指导。本文选取Mg85Zn6Y9(at%)长周期单相合金以及Mg97Zn1Y2(at%)长周期相强化型镁合金为研究对象,综合利用扫描电子显微
羟基自由基(·OH)反应是有机污染物在大气和水环境中的重要降解途径。有机污染物与·OH反应的速率常数(KOH)是表征有机污染物环境持久性和进行生态风险评价的重要指标。仅通
能源使用带来的环境问题以及气候变化,已成为世界各国面临的重大危机和严峻挑战。家用电器作为大多数人每天都会使用的产品,其用电量和能源消耗量不容小觑。节能家电的推广能
自2015年起,锑烯二维纳米材料因其具有与石墨烯类似的层状结构和一些优于石墨烯的物理及光电性能而备受关注。锑烯纳米材料具有高的载流子迁移率及可调节的带隙,较短的面外原子键长和较强的自旋-轨道耦合(spin-orbit coupling)效应,使其具有特殊的物理化学性能,特别适用于半导体、光电子元器件制备,等离子体探测以及超短脉冲的产生等诸多领域。光声成像是一种非入侵性的无损成像技术,兼具光学成像的
伴随着中国证券市场的不断成熟,尤其是上海证券交易所和深圳证券交易所的成立,敌意收购这种在西方国家盛行已久的金融模式也逐渐在中国具备了实施的可能性。从1993年开始,国
随着经济的不断发展变化,我国产业结构已经进入到了深度调整阶段。建筑业作为我国的重要经济支柱,正面临着市场增速递减和市场容量缩小的局面。建筑企业在复杂的市场竞争环境下,忧患意识增强并开始强调内部管理工作的有效性。项目管理作为建筑企业内部管理工作的重要组成部分,将成为优化改进的重点。科学合理的对建筑施工项目作出绩效评价,有利于项目管理水平的提升。但由于行业特征以及CS公司内部在经营管理方面的不足,导致
随着智能手机的广泛普及,人们的日常行为活动被记录下来,形成轨迹大数据。如何分析用户的大量移动轨迹数据,挖掘这些海量轨迹数据中蕴含着的有价值信息是当前移动对象研究中
互联网上每天都会产生海量数据,累积起来的数据量达到上万亿个网页之多,用户需要通过检索工具获取相关信息,而检索工具需要使用特定的计算机根据一定的策略先从互联网上搜集
QR码(Quick Response Code)属于二维码的一种,人们利用QR码打通线上与线下之间的联通,创造出了支付、信息获取、物联网等全新的应用场景,极大方便了人们的日常生活。随着QR码
广元市中心城区环境地质较为复杂,大致可分为中山、低山丘陵、河谷丘坝;南部临四川盆地,北部邻龙门山脉,城市以东西走向分布在河谷之中,为较为平缓地段,嘉陵江横穿城市。本文以广元市城区环境地质为例,采用层次分析法和灰色聚类法两种方法对城市环境地质进行评价研究。将广元市工程地质环境评价结果作为城市用地规划的重要依据,尝试分析解决广元城市存在的主要环境地质问题,并通过与广元市现行城市规划对比,对现有规划现有