基于学术搜索引擎的同名判别算法研究与实现

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:xie2372
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学者同名问题是学术搜索引擎下的一个常见问题,这给现代学术搜索引擎带来以下问题:第一不方便用户在众多同名作者中定位到自己感兴趣的作者;第二无法为学者建立一份个人研究档案,进而无法针对该学者做一些意义的研究分析,例如无法抽取该学者的研究兴趣,学术声望,研究团队等。因此,学者同名判别问题是学术搜索引擎下的一个基础问题。学术搜索引擎下,必然是海量数据做支撑的。因此本文主要研究在海量学术资源下的同名判别算法设计和系统实现。本文工作主要包含两部分:  利用合作者关系这一特征,实现属于同一作者的论文集合的初次聚类。  经过认真选择,本文认为合作者关系所形成的合作者网络,是解决该问题的最主要特征。每一篇论文中的合作者能够形成一个完全图,在同一个名字下所集聚出的论文集合,就可以形成一个属于该名字的合作网络,通过合作网络,可以判断两个同名作者之间的相似度,进而判断两篇论文中的作者是否为同一人,形成属于同一作者的初次聚类,我们称之为原子聚类。  利用学术信息中的语义特征,对第一阶段论文集合实现再次聚类。  在经过第一步判断后所形成的原子聚类,具有很高的准确度,保证属于同一作者的论文信息是在同一原子聚类中,然而无法保证属于同一作者的所有论文信息都在同一个原子聚类中,这时单个原子聚类已经包含了丰富的语义信息,本文通过对原子聚类中的语义信息进行抽象,形成关键字特征,进而判断同一名字下的原子聚类之间的语义相似度,从而实现原子聚类之间的二次聚类,尽可能的讲属于同一作者的所有论文信息都包含进同一个原子聚类中。
其他文献
随着数字图像的爆发性增长,如何有效管理和组织海量图像已成为图像处理领域中一个迫在眉睫的难题。场景分类作为图像检索、图像理解等更高层次需求的基础,在计算机视觉领域占有
该文在充分理解分布式计算和分布式对象计算技术的基础上,分析比较两种分布式对象技术CORBA和COM/DCOM,重点介绍COM/DCOM的技术原理和特点.在分析Web的体系结构基础上给出了
学位
实时洪水预报和实时洪水调度,作为一种能有效地减轻洪灾的危害程度和降低洪灾所造成的损失的非工程措施,在近几年来的防洪减灾工作中发挥着越来越重要的作用.实时洪水预报调
学位
学位
学位
学位
面对月球信息数据的多源性和异构性等特点,需要一套准确、规范并且可互操作的信息描述格式对月球信息异构数据进行存储和管理,所以在本系统引入基于G/S(General-Brower/Distribu
随着Web技术的发展,越来越多的信息系统使用流行的B/S结构进行架构和开发。Web应用的开放性和流行性使得很多Web系统面临大量并发用户的使用,系统的可靠性和性能问题也随之出现