【摘 要】
:
互联网蓬勃发展使大数据出现爆炸式增长,导致数据规模大、价值密度低,对有效可靠的数据挖掘技术产生了巨大的需求。链接预测是探索实体之间存在关系的可能性,已成为数据挖掘的核心任务,引起广泛重视。链接预测研究促进了对网络演化的认知。但是,现有的链接预测模型难以对复杂网络结构进行有效建模,由于网络的稀疏性,数值价值密度较低,噪声对网络结构干扰较大,导致预测准确性较低。特别是包含丰富语义信息的异质网络,无法充
论文部分内容阅读
互联网蓬勃发展使大数据出现爆炸式增长,导致数据规模大、价值密度低,对有效可靠的数据挖掘技术产生了巨大的需求。链接预测是探索实体之间存在关系的可能性,已成为数据挖掘的核心任务,引起广泛重视。链接预测研究促进了对网络演化的认知。但是,现有的链接预测模型难以对复杂网络结构进行有效建模,由于网络的稀疏性,数值价值密度较低,噪声对网络结构干扰较大,导致预测准确性较低。特别是包含丰富语义信息的异质网络,无法充分利用多样的结构类型,从而造成关键信息的缺失或错失。基于上述原因,本文提出了基于子空间聚类的链接预测方法,具体内容如下:(1)针对同构图提出了基于子空间聚类的链接预测方法。首先提出了基于低通滤波的子空间聚类方法。现有图网络中存在高频的噪声信号、会降低聚类的准确率。低通滤波模型可以有效过滤网络中的高频噪声,留下低频真实的特征信号。同时考虑高阶邻居对节点的影响,学习后的网络结构有助于下游的聚类任务以及链接预测任务。其次,基于子空间聚类提供的聚类信息和节点的共同邻居进行链接预测。最后,与传统的基于共同邻居的局部相似性方法相比,效果得到了提升。(2)针对异构图提出了基于子空间聚类的链接预测方法。为利用异质信息网络中包含的丰富的语义信息,首先设计了基于元路径的相似度度量模块,通过学习不同种类元路径的权重,构造具有自表达性的相似度矩阵,完成聚类任务。其次对异构图进行“去异”,把异构图退化为同构图,结合共同邻居和聚类系数进行链接预测任务,实现对异构网络中节点之间关系的预测。最后,与典型的异构图嵌入方法相比,效果得到了提升。(3)开发基于学术网络的学者合作链接预测系统。算法应用落地,结合实际场景需求,设计并开发了基于子空间聚类的链接预测方法开发学术网络场景下学者合作链接预测推荐系统,实现学术信息查询、学者合作关系预测以及学术网络可视化等功能。在未来,学术网络学者合作系统还可以为实现学者人物画像和学者关联关系分析提供有效思路。
其他文献
随着工业4.0的发展,信息化技术逐渐运用到工业,使得工业逐步向智能制造的方向发展,这也要求工业软件向智能化和云服务化的方向发展。NX平台也在向该方向发展。但是由于NX平台非开源、缺乏数据集,智能化仍处于探索阶段。NX Measurement是NX平台的测量系统,是NX平台的核心系统之一,如果能提高其智能化程度,就可以提高NX平台的便利性和用户体验感。基于以上背景,本文将通过推荐系统,对用户预期的测
“固化/稳定化+填埋”是我国主流的垃圾焚烧飞灰处理技术路线。针对稳定化飞灰填埋区可能存在的覆盖层老化、破损,防水、防雨、防渗措施不完善等情况,构建了“模拟酸雨”和“模拟渗滤液”两种入侵外环境。以分阶段进水方式探究了模拟酸雨(硫酸-硝酸溶液)和模拟渗滤液(醋酸溶液)在6种典型渗流路径下对填埋螯合剂稳定化飞灰中重金属(Pb、Cd、Zn、Cu、Cr、Ni)浸出行为影响,并评估了液相和固相中重金属的潜在环
基于机器学习的智能模型在出行、消费、医疗等领域已经有了广泛的应用,对人们的生活、学习以及工作都产生了深远影响,这都得益于人工智能的三大支柱算法、算力、数据的飞速发展。当人类思考问题时,会结合问题相关的空间关系、因果关系、科学事实和社会习俗常识等背景知识来分析问题,这类知识对人类来说微不足道,但是目前的人工智能模型仍然无法获取,近年来大量的研究开始尝试向智能模型中融入常识知识,常识推理问答成为了人工
在这个信息“大爆炸”的时代,每天都会产生大量的信息,而图像是信息的重要载体。现实中许多图片包含丰富的信息量,往往有着不止一个标签,因此多标签图像的分类问题受到许多学者的重视。得益于深度学习的崛起,多标签图像分类也有了丰富的研究成果,并在医疗图像、智慧交通等领域成功应用。然而,深度学习方法普遍高度依赖于大量的标注数据,但在实际应用中,获取高质量的标注数据成本十分高昂。主动学习的核心目标在于通过合适的
近年来,深层的脉冲神经网络由于其强大的特征提取能力,逐渐得到学者们的重视。训练高性能的深度脉冲神经网络(Spiking Neural Networks:SNNs)需要大量的标记数据,但在实验过程中给海量数据打标签是耗时耗力且高成本的一项工作。为了减少训练深度脉冲学习模型所需要的已标记数据量,提升训练模型的效率,本文旨在研究脉冲神经网络上的主动学习方法。目前基于传统人工网络的主动学习策略研究较多,却
近年来,随着机器学习技术的不断发展,更多具有挑战性的机器阅读理解数据集不断被提出,机器阅读理解技术成为了热门研究方向。近期,两个考验机器逻辑推理能力的阅读理解数据集Re Clor和Logi QA受到了研究者们的关注,当前主流的预训练模型更多关注单词级语义,对文本逻辑关系的捕捉能力较弱导致逻辑推理能力较低。本论文结合预训练模型和符号模型的优势,提出基于混合推理的阅读理解模型,并通过加深预训练模型网络
事件抽取的本质是从大量非结构化、未经处理的信息中抽取出完整事件,包括事件触发词和一系列事件要素,并以结构化形式存储和展示。事件抽取技术为当代社会中态势感知、社会治理、决策辅助和应急处突等重大需求提供了技术支撑,有着重要研究意义和价值。当前事件抽取领域存在着对复杂语义环境抽取效果不佳等问题。故本文围绕事件抽取任务,进行了如下主要研究:1.针对事件触发词抽取定位和分类不准确等问题,现有方法主要利用句子
在现今大数据时代中,互联网上的信息数据量成爆炸式增长,异构数据规模庞大,真假信息相互混杂。人们可以从各种来源处获得需要的信息,但这些网络开源数据成长尾分布,且来源之间关系隐含且复杂。本文围绕网络开源信息的真值发现问题开展研究,基于深度学习方法,面向无标签多源文本数据以及单个文本数据,分别提出了基于GCN的无监督多源真值发现模型与基于外部信息融合的单源真值发现模型,并设计实现了基于真值发现的网络信息
试验旨在研究玉米蛋白粉对海兰褐蛋鸡产蛋性能、养分消化率及蛋品质的影响。选取1 500只海兰褐蛋鸡随机分为4组,每组5个重复,每个重复75只鸡。对照组蛋鸡饲喂基础日粮,试验Ⅰ组、Ⅱ组、Ⅲ组分别在基础日粮中添加3%、6%、9%玉米蛋白粉。预试期7 d,正式试验期35 d。结果显示,试验Ⅱ组蛋鸡的产蛋率显著高于其他组(P<0.05),对照组蛋鸡的产蛋率最低,为81.46%。试验Ⅱ组、试验Ⅲ组的蛋重显著低
剪力墙结构是高层建筑中采用较为广泛的结构体系。传统的“强墙肢,弱连梁”抗震设计理念将连梁作为剪力墙结构抗震设防的第一道防线,在结构遭受地震作用时,先于墙肢破坏。然而,传统的钢筋混凝土连梁的耗能能力较弱,且地震作用后,连梁发生较大损伤,修复困难,甚至无法修复,影响了整体结构的地震恢复能力。基于此,本文拟基于剪切和弯曲钢板的组合,改变传统阻尼器分阶屈服的设计思路,提出一种基于滑移连接的分阶屈服型消能连