论文部分内容阅读
2003年,由NLC、CCS、CALIS、JULAC-HKCAN联合发起并成立了中文名称规范联合协调委员会CCCNA,在委员会的统一协调下,两岸四地的图书馆名称规范数据进行集中存储,并建立了一站式检索平台。但是该平台仅实现了数据层面的整合,解决的是名称规范资源分散保存的问题,在集中存储后,出现了名称规范记录的技术标准形态异构与资源内容的重复建设的问题。技术标准形态异构导致中文名称规范数据的开放程度仍然局限在图书馆内部,不能与网络资源进行有效的交互;资源内容重复建设导致中文名称规范档开始出现同一个体的不同名称标识,不同个体的同名冲突,名称标识的变动以及在跨系统交流过程中名称格式不规范的问题,最终无法满足用户信息检索的需求。世界上最大的、影响范围最广的网络百科全书——维基百科,其中文版拥有811305个条目,人物类(信息盒中的字段数大于3)条目已经超过8000个,条目内容极其丰富,以传记的形式详细描述了人物的生平信息,并采用结构化的信息盒对该人物的属性进行结构化的描述。维基百科资源可以对中文名称规范档形成有效的补充,帮助解决目前中文名称规范档存在上述问题。 本文在国内外名称规范数据发展建设、名称规范数据的资源整合,以及名称规范数据与网络资源的整合研究的基础上,分析了国内现有的 CCCNA数据库检索系统的资源使用情况,论述网络资源中维基百科作为目标整合资源的优势,以及中文名称规范数据与维基百科整合的必要性。提出中文名称规范档在数据整合的基础上,可以与维基百科做进一步信息整合,甚至是语义整合。 在信息资源整合方面,首先对实现信息整合的方法做出分析,然后重点论述了维基的接口MediaWiki API,并利用该接口实现中文名称规范档与维基的信息资源整合:自动生成将维基条目的链接和该条目的简介,然后将此添加到中文名称规范档相应的记录中。最后对集成结果和实验效果进行评估。 在语义整合方面,本文采用综合归纳及比较研究的方法,总结 Wikidata的发展历程,对其数据特点及数据模型进行研究。Wikidata具有开放、协作、多语言、结构化的特点,其以条目为核心,定义了实体类及属性,提供了多样化数据获取方式。然后针对中文名称规范档的数据组织现状设计中文名称规范档与 Wikidata的语义整合模型。在语义整合的实现上,本文采用关联数据技术的方法,首先将中文名称规范档的数据进行语义化,并下载了Wikidata中的人物数据,在此基础上,使用PARIS算法,实现了语义化的中文名称规范档与 Wikidata的实体对齐,最后对实体对齐的结果采用数据可视化的方式进行展示。