基于引用网络的关系圈挖掘

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:Ryanshel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机科学技术的不断进步和信息化的过程不断加快,各种各样的大数据技术应运而生,其应用也越来越广泛。在数据类型繁多和数据量大的情况下,人们很难快速和精准的获取到想要的信息。科研论文是学术工作者的重要科学研究成果,随着时间的变化科研论文数量在急剧增加,不同的科研学术论文之间存在的引用关系越来越频繁复杂,这些引用关系形成了关联非常复杂的论文引用网络。不同的学术领域根据论文的引用关系形成不同形状和密度的社团结构。学术圈中,通常以某一个较小领域进行社团的划分,通过这种方式就会在复杂网络中形成很多较小的社团,社团与社团的关联程度较弱。社团外的学者想要学习对应领域内其他学者的研究现状和成果需要付出较大的查询代价。因此一种高效的社团发现方法可以对学术领域的交流起到重要的推动作用。复杂网络是由复杂系统的组成元素通过转化的方法形成的节点组成,节点的子集可以构成复杂网络中的社团。同一个社团结构内部的节点之间的连边多,而不同的社团之间的连边相对社团内部而言较少。复杂网络中的社团发现技术与数据挖掘中的聚类分析技术有着密切的联系,在2002年由Girwan和Newman两位学者共同提出了GN算法,它是最为经典和科研工作者所熟知的复杂网络社团发现算法,属于分裂的层次聚类分析算法中的一种类型。2004年由Fortunato等人提出了一种改进的GN算法,其核心思想是基于信息中心度而不是先前采用的边介数,它将GN算法中删除边介数最大的边改为去除信息中心度最大的边。2005年,Palla提出了社团发现算法CPM(clique percolation method),它是最早的重叠社区发现算法,CPM算法是基于完全子图概念的,比较适合应用在完全子图相对较多的复杂网络中,由于在社区内部节点之间连接密切,边密度高,容易形成派系(clique)。学术圈中的论文引用关系有强弱之分,当前的大多社区发现算法忽略了节点之间的联系强弱信息。本文通过对传统的基于密度的DBSCAN算法的研究并讨论其缺点,提出一种改进的算法,并且将改进的算法应用在学术圈的社团发现中。分别在传统的DBSCAN算法和改进的算法上使用DBLP数据集进行实验。结果表明,本文提出的改善的算法对学术圈社团发现挖掘结果较好于传统的DBSCAN算法。
其他文献
我国是以农业为主的国家,钾作为农作物生长不可或缺的重要营养元素,在我国农业生产中有着十分重要的特殊地位。钾作为不可再生资源,在我国储量仅占世界钾储量的很小一部分,且
灰家堡金矿田是黔西南卡林型金矿床矿集区中重要金矿产地之一,该矿田处于扬子准地台西南缘与华南褶皱系右江褶皱带之交接部位。灰家堡金矿田主要包括水银洞超大型金矿床、紫
我国的经济发展长期采用粗放型模式,给环境带来了很大的危害,其中水环境的氮素污染尤为严重。传统生物脱氮理论认为硝化过程是在好氧条件下进行,反硝化过程只能在厌氧或缺氧
可鲁克湖流域南北贯穿青海省海西蒙古族藏族自治州德令哈市,位于柴达木盆地北部的次一级盆地-德令哈冲洪积扇盆地内。可鲁克湖流域是柴达木盆地生物多样性最为丰富的地区,对
长期以来我国经济发展主要依靠“先污染,后治理”的传统模式,在有限的环境和资源倒逼机制下,制造型企业为环境责任的主要承担者,企业“绿色化”被认为是解决环境、资源和经济矛盾的重要手段,绿色转型为下一轮经济增长的前提。本研究从企业绿色转型的概念介绍入手,分析梳理关于企业绿色转型的相关文献,并结合政府环境规制理论、市场引导理论、内生增长理论、推-拉-锚定模型等相关管理学理论,从制造型企业的实际情况出发,分
必需基因是指在一定条件下,维持生物体的生命活动所必不可少的基因。正确鉴定必需基因对研究一个物种赖以生存的最小条件、揭示进化过程中物种的关系和确定潜在的药物靶点等
在一个大型矿物加工系统中,各类运输、传送类机械设备都是通过溜槽来连接的,它是保证整个工艺流程顺利进行的关键中间载体。但实践证明,溜槽是整个连续运输系统中最薄弱的环
Tetronic acid类化合物因其杀菌、杀虫、杀螨及抗氧化等多种生物活性及结构反应性强等特点引起了科研工作者的关注,成为新农药创制研究的热点领域之一。自上世纪90年代拜尔公
改革开放以来,随着我国经济的高速发展和经济全球化的趋势,家庭资产的合理配置及正确的理财方式成为认为日常生活中人们日益关注的问题。由于中国特殊的经济以及社会环境,和
非线性时变信号是一类频率和幅值随时间变化的多成分信号,多变量系统、多个信号的组合过程特征往往呈现出高度的复杂性,它的分类处理一直是信号分析与人工智能研究领域研究的重要课题。ECG心电信号极易受到干扰,是一种具有非平稳性的微弱信号,每一个心动循环周期由一系列有规律的波形组成,这些波形分别记录着心脏活动状态的详细信息,为心脏疾病的诊断提供着重要的分析依据。目前绝大多数研究都是在将时变信号视为时间短、状