面向科研人员的多源异构信息消歧系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:hyb916720hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科研人员信息的挖掘作为信息技术领域的重要前沿课题之一,不断地吸引着研究者参与其中。与互联网中的其他信息一样,科研人员信息广泛地分布在互联网的各个角落,这些信息存在着来源广、结构多样、内容庞杂的问题,给数据分析的研究者带来了不小的障碍,如何有效地对科研人员信息进行消歧是当前一个亟待解决的问题。科研人员信息消歧的本质是人名消歧,本文针对人名消歧尝试采用一种基于人物属性特征和社会关系网络相结合的分步消歧方法,消歧工作包括对科研人员论文数据和专利数据的消歧,还有对其职业社交网络信息进行融合。主要研究内容和工作包括以下几个方面:(1)数据采集与预处理。本文针对几类不同数据源分别提出了不同的数据采集方法并对采集后的结构化、非结构化和半结构化数据进行了预处理,其中自动化爬虫的设计和实现是这部分的工作重点。(2)科研人员本体模型构建。通过抽取各类数据源的人物特征,利用这些特征构建能够唯一标识一个科研人员的本体模型,并能够将采集的异构数据统一存储,为科研人员消歧和分析提供便利。(3)确定消歧解决方案。研究了相关消歧方法分类,对传统的基于特征属性的消歧方法和基于社会关系网络的消歧方法进行了研究,提出了一种将两种方法结合使用的分步聚类消歧策略,并采用时间节点和地理位置属性对消歧进行约束。(4)设计和实现系统。将数据采集、本体构建和消歧方法以模块的形式整合到系统中,实现对科研人员信息进行有效融合和准确检索。在所实现的系统之上,对单独的特征聚类、社会网络聚类和二者相结合的分步聚类进行对比实验分析,其结果表明本系统采用的分步聚类消歧方法的效果要好于其他两种聚类方法。
其他文献
1微量元素氨基酸螯合物的研究20世纪70年代,微量元素氨基酸螯合物的研究推动了络合物在动物营养中的应用.美国饲料管理官员协会(MFCO,1996)确定了微量元素氨基酸螯合物的概念
本文以吉林省参与东北亚区域经济一体化的现状作为研究的出发点,在分析吉林省在东北亚区域经济一体化中存在问题的基础上,进一步提出了东北亚区域经济一体化背景下吉林省对外
蓝孔雀葡萄球菌病是由致病性金黄色葡萄球菌引起的急性或慢性接触性传染病.此病不分季节、年龄大小,主要造成蓝孔雀的脓毒败血症、严重下痢、局部化脓性炎症、关节炎等症状,
文章从传统和声教材中的持续音理论出发,以格里格《钢琴抒情小品》为例,对持续音理论存在的问题进行了探讨,由此提出应重新整理持续音的定义、属性与持续音的技法等内容,并在此基
将二氢吡啶添加到奶牛日粮中进行饲养试验.结果表明,试验期间二氢吡啶可以明显降低奶牛隐性乳房炎的发生率,到试验结束时,试验组牛只隐性乳房炎发生率降低71.4%,比对照组降低