论文部分内容阅读
学者同名问题是学术搜索引擎下的一个常见问题,这给现代学术搜索引擎带来以下问题:第一不方便用户在众多同名作者中定位到自己感兴趣的作者;第二无法为学者建立一份个人研究档案,进而无法针对该学者做一些意义的研究分析,例如无法抽取该学者的研究兴趣,学术声望,研究团队等。因此,学者同名判别问题是学术搜索引擎下的一个基础问题。学术搜索引擎下,必然是海量数据做支撑的。因此本文主要研究在海量学术资源下的同名判别算法设计和系统实现。本文工作主要包含两部分: 利用合作者关系这一特征,实现属于同一作者的论文集合的初次聚类。 经过认真选择,本文认为合作者关系所形成的合作者网络,是解决该问题的最主要特征。每一篇论文中的合作者能够形成一个完全图,在同一个名字下所集聚出的论文集合,就可以形成一个属于该名字的合作网络,通过合作网络,可以判断两个同名作者之间的相似度,进而判断两篇论文中的作者是否为同一人,形成属于同一作者的初次聚类,我们称之为原子聚类。 利用学术信息中的语义特征,对第一阶段论文集合实现再次聚类。 在经过第一步判断后所形成的原子聚类,具有很高的准确度,保证属于同一作者的论文信息是在同一原子聚类中,然而无法保证属于同一作者的所有论文信息都在同一个原子聚类中,这时单个原子聚类已经包含了丰富的语义信息,本文通过对原子聚类中的语义信息进行抽象,形成关键字特征,进而判断同一名字下的原子聚类之间的语义相似度,从而实现原子聚类之间的二次聚类,尽可能的讲属于同一作者的所有论文信息都包含进同一个原子聚类中。