论文部分内容阅读
科研人员信息的挖掘作为信息技术领域的重要前沿课题之一,不断地吸引着研究者参与其中。与互联网中的其他信息一样,科研人员信息广泛地分布在互联网的各个角落,这些信息存在着来源广、结构多样、内容庞杂的问题,给数据分析的研究者带来了不小的障碍,如何有效地对科研人员信息进行消歧是当前一个亟待解决的问题。科研人员信息消歧的本质是人名消歧,本文针对人名消歧尝试采用一种基于人物属性特征和社会关系网络相结合的分步消歧方法,消歧工作包括对科研人员论文数据和专利数据的消歧,还有对其职业社交网络信息进行融合。主要研究内容和工作包括以下几个方面:(1)数据采集与预处理。本文针对几类不同数据源分别提出了不同的数据采集方法并对采集后的结构化、非结构化和半结构化数据进行了预处理,其中自动化爬虫的设计和实现是这部分的工作重点。(2)科研人员本体模型构建。通过抽取各类数据源的人物特征,利用这些特征构建能够唯一标识一个科研人员的本体模型,并能够将采集的异构数据统一存储,为科研人员消歧和分析提供便利。(3)确定消歧解决方案。研究了相关消歧方法分类,对传统的基于特征属性的消歧方法和基于社会关系网络的消歧方法进行了研究,提出了一种将两种方法结合使用的分步聚类消歧策略,并采用时间节点和地理位置属性对消歧进行约束。(4)设计和实现系统。将数据采集、本体构建和消歧方法以模块的形式整合到系统中,实现对科研人员信息进行有效融合和准确检索。在所实现的系统之上,对单独的特征聚类、社会网络聚类和二者相结合的分步聚类进行对比实验分析,其结果表明本系统采用的分步聚类消歧方法的效果要好于其他两种聚类方法。