【摘 要】
:
随着互联网的蓬勃发展,越来越多的人愿意在社交网络中交友与生活。所以用户往往拥有多个社交网络账号。但由于平台之间的封闭性,同一用户在不同社交网络平台中产生的数据无法有效连通,这为跨网络数据挖掘任务带来了困难。因此,社交网络用户对齐成为一个关键的研究问题。对于社交网络用户对齐来说,基于表示学习的模型已被证明是有效的方案,这类模型通常采用节点之间的特征传播与聚合的模式来学习节点的特征。然而,对于密集的子
论文部分内容阅读
随着互联网的蓬勃发展,越来越多的人愿意在社交网络中交友与生活。所以用户往往拥有多个社交网络账号。但由于平台之间的封闭性,同一用户在不同社交网络平台中产生的数据无法有效连通,这为跨网络数据挖掘任务带来了困难。因此,社交网络用户对齐成为一个关键的研究问题。对于社交网络用户对齐来说,基于表示学习的模型已被证明是有效的方案,这类模型通常采用节点之间的特征传播与聚合的模式来学习节点的特征。然而,对于密集的子图结构来说,通常会导致嵌入空间“过度密集”,使模型在对齐过程中误匹配的概率增大。此外,在表示学习过程中,通常需要所有的邻居节点参加信息传播过程。由于网络的复杂性与数据的随机性,不可避免会引入“噪声”,影响模型对齐性能。本文针对上述两个问题,以提升社交网络对齐模型准确率为目标,进行了研究。主要研究内容与创新如下:1、本文提出一种基于伪锚节点与元学习的社交网络对齐框架,通过植入的伪锚节点来改变网络中节点表示向量的更新模式,使缺少锚节点的局部嵌入空间变得更加的稀疏,本文通过节点向量的梯度更新过程和泰勒展开式对这一结论进行了证明。进一步提出一种元学习算法来指导伪锚节点的表示向量在学习过程中找到伪锚节点在对齐算法中更好的位置。本文提出的通用学习框架可以广泛适用在基于表示学习的社交网络对齐方法中。在两个真实社交网络数据上的实验结果表明,相对于目前先进的对齐模型来说,在模型中融合本文所提的框架取得了更高的准确率,特别是在仅有少量标注可用的情况下。2、本文提出一种面向社交网络对齐的结构去噪模型,该模型以去除跨网络表示学习中的“噪声”关系为目标,提出了基于掩码矩阵,设计图表示模块与对齐模块的联合学习方案。进一步结合局部一致,全局一致的思想,学习得到针对对齐任务而言的“噪声”数据,通过掩码矩阵计算得到节点关系的重要程度,并删除不重要的top N%部分完成数据增强。在真实数据上的实验表明,在删除少量“噪声”关系时,模型准确率可以得到有效提升,删除较多关系时,仍然能保持较高水平的准确率,上述结果证明了所提模型的有效性。
其他文献
作为一种自然界中资源最丰富的天然高分子材料,植物纤维由于其价格低廉、可再生、可降解等优点以及对水泥产品良好的力学性能提升效果,被认为是建筑材料中传统纤维的有效替代产品之一。然而,植物纤维在水泥孔隙溶液碱性环境下的劣化行为在很大程度上制约了植物纤维在水泥基材料中的广泛应用。因此,研究植物纤维在水泥孔隙溶液中的劣化行为并开发有效的耐久性调控技术具有重要意义。鉴于此,本文采用模拟的简化水泥孔隙溶液与真实
随着我国电商行业的发展,各大电商平台需要更加个性化、智能化的方法提升平台的收益以及用户的购物体验。对用户的消费偏好的研究可以准确预测电商平台广告点击率,从而有效实现精准营销和个性化推荐。本文从电商平台用户历史行为序列和商品特征属性两个方面出发,深入电商平台用户、商品特征隐藏的用户兴趣研究。本文贡献总结如下:1.基于用户行为序列特征层面,针对传统循环神经网络处理时序数据的优势但忽略输入序列时间间隔的
社交媒体是互联网飞速发展的产物之一,民众通过社交媒体交流信息已变成日常生活中必不可少的一件事情。微博作为热门的社交媒体之一,其特点是使用方式简单便捷、实时性高以及传播迅速,并因这些特点成为了国内民众表达情感和分享日常的重要渠道。微博拥有十分庞大的用户群体,每天都能产生海量含有民众情感的微博文本,微博文本成为了国内舆论走向的代表之一,因此对微博文本进行情感分类研究,可以挖掘出微博文本中的情感信息应用
不平衡分类问题一直是机器学习、模式识别和数据挖掘领域的研究热点。目前分类器大多都是基于平衡数据集进行设计的,因此对不平衡数据集,其分类结果往往偏向多数类,降低了模型的泛化性能。面对现实生活中大量的不平衡数据集,如何从中学习到拟合能力较强的模型具有十分重要的现实意义与应用价值。目前,有许多采样和代价敏感学习等方法可以减少不平衡数据对分类性能的负面影响,其中采样中的过采样方法是最常用的一种数据预处理方
唇语识别的目的在于利用视觉信息弥补听觉通道的不足,广泛应用于监控视频语音还原、噪声环境语音增强等领域。唇语识别的挑战体现在其涉及两种感知通道的转换,唇语本身具有多义性、多样性,以及唇部细节视觉特征的表示与理解,也是导致现有的唇语识别技术仍面临着流畅度不高、可懂度低等问题的原因。改善这一问题的关键在于如何获取更丰富的唇部变化的细节信息并挖掘其时空相关性。为此,本文从注意力机制和多分支时间卷积网络两个
建设造福人民的幸福河湖是新时期河湖治理的目标,构建幸福河湖评价指标体系是检验河湖治理成效的重要手段,河湖水生物评价指标是幸福河湖评价指标体系的关键内容。以某省幸福河湖评价办法为例,笔者从幸福河湖评价体系总框架、水生物评价指标选取、涵义及测算方法等方面进行了探讨研究,分析了幸福河湖水生物评价指标的代表性、监测与评价标准的统一性、调查结果的准确性及评价结论的可靠性,以及水生物评价指标体系构建面临的问题
目的 基于标化表观扩散系数(ADC)值预测膀胱癌患者人表皮生长因子受体2(HER2)的表达状态。方法 回顾性研究127例膀胱尿路上皮癌患者的术前盆腔3.0T核磁共振(MRI)扫描图像,计算标化ADC值。采用免疫组织化学法(IHC)检测术后组织标本中的HER2表达状态。在HER2各表达水平间、不同表达状态划分间比较标化ADC值的差异。标化ADC值与HER2表达状态行相关性分析。受试者工作曲线(ROC
图像作为最简洁和最具表现力的视觉语言,在当前这个信息时代占据着举足轻重的作用。由于成像设备的不完备以及拍摄技术的不成熟,导致获取的图像所表达的信息不清晰,难以满足现实需求。而解决图像质量的一种常用手段是多聚焦图像融合。多聚焦图像融合作为一种提升图像质量的有效方法,通过手工设计的融合规则将同一场景下多幅不同焦距的图像融合成一幅全清晰的图像。现有的方法根据使用的技术被划分为:基于传统的方法和基于深度学