论文部分内容阅读
科技文献作为一种重要的学术信息资源,是科研工作者们研究过程中的首选参考资源。随着大数据时代的来临,网络中充斥了海量的科技文献,且保持着迅猛的增长势头,因此如何实现科技文献内部知识的高效率检索成为学者们研究的重点问题。目前的科技文献检索系统大多采用以整篇文献为单位的粗粒度知识组织方法,这种方法未能深入到科技文献内部揭示细粒度知识内容及其之间关联关系;在检索过程中,检索系统仅能接收关键词组合形式的检索式,且只能将检索式与科技文献特定字段进行简单的关键词匹配,这种方式缺乏对检索式和科技文献内部知识的语义理解与分析,导致检索结果不能满足用户的真实需求。因此如何实现科技文献内部知识的细粒度组织和语义检索是科技文献检索领域的研究重点。为此,本文尝试从细粒度的知识单元视角出发,研究科技文献的细粒度知识组织方法和语义检索方法。本文的主要工作包含两方面:一方面,提出了一种科技文献的细粒度知识组织方法——资源语义空间。该方法以细粒度知识组织思想为指导,以科技文献为研究对象,通过对科技文献内部逻辑结构的分析,提取出科技文献内部具有完整知识表达能力的知识单元;在此基础上,采用语义链接网络构建技术,建立知识单元之间、知识单元与其内部概念之间的语义链接网络,最终给出了一种包含科技文献资源层、知识单元描述层及知识单元语义链接层的科技文献细粒度知识组织方法,即资源语义空间。该方法能够为细粒度语义检索研究奠定基础。另一方面,提出了一种基于资源语义空间的科技文献细粒度语义检索方法。在科技文献的细粒度组织基础上,本研究通过对自然语言检索式和知识单元主题概念的语义依存分析,提出了检索式与知识单元主题概念的语义相似度计算方法;通过对自然语言检索式与知识单元元素概念的词共现分析,提出了检索式与知识单元元素概念的语义相似度计算方法;在此基础上,提出了一种自然语言检索式与知识单元的检索匹配方法。实验结果表明,该方法能够实现用户直接定位科技文献内部的知识内容的目标,且具有较高的查准率。该研究从细粒度的知识单元视角出发,给出了一种新的科技文献资源的组织与检索方法。在理论层面,该方法细化了知识组织与检索对象的粒度,丰富了细粒度知识组织与检索的理论与方法;在实践层面,该方法有利于科技文献检索系统揭示科技文献资源内外部的语义关系,实现对文献内部知识单元的细粒度组织,提高用户获取和利用信息的效率。