论文部分内容阅读
进入21世纪以来,科技创新发展领域的竞争已经演变成为国际竞争成败的主导因素。在此背景下,如何运用情报学分析方法与信息处理技术识别科技创新路径揭示出科技创新的发展过程及其演化趋势更显得尤为重要。科技创新一般是在之前他人科技创新成果的基础上实现新的创新,具有时间戳的科技文献之间的科技创新成果相互连接构成了科技创新的动态发展路径,为科技创新路径识别提供了真实可靠的数据源。传统科技创新路径识别的研究注重量化统计研究,忽略科技文本内容的理解,丢失了大量科技创新的语义信息,未深入到科技创新路径内部对科技创新内容进行系统的分析和解读。随着计算机信息处理技术以及文本数据挖掘技术的发展,研究人员开始利用语义分析技术深入分析科技文献文本数据。本文利用浅层语义分析技术,标引出科技文献句子中研究目的、方法等科技创新内容,对科技创新主题演化路径进行语义化解读,形成语义增强的科技创新路径,主要包括四个部分的研究内容:(1)分析总结科技创新路径研究的最新进展。(2)语义增强的科技创新内容表征研究。根据Keygraph算法抽取科技文献中表征科技创新内容的关键词的语义角色,构建科技创新内容4部图谱对科技创新内容进行特征选择,基于SVM完成科技创新内容的语义表征。(3)基于LDA的科技创新主题识别研究。将科技文献按照时间段进行切分,在科技创新内容语义表征结果的基础上,利用LDA模型识别出科技创新主题。(4)语义增强的科技创新路径识别研究。构建科技创新主题网络,利用Jaccard系数分析科技创新主题之间的语义相似度,利用纳入指数计算各子时期科技创新主题重叠关系,基于Node XL形成了语义增强的科技创新路径。实验结果表明,本文提出的语义增强的科技创新路径识别方法能够有效地识别出科技创新路径,挖掘出其关键节点中包含的科技创新内容,帮助用户缩短查阅科学文献的时间,快速地掌握科技创新内容的传承与演化,从单一的科技创新路径识别与可视化解读转变成对科技创新整个发展过程中所有路径的可视化语义解读。由于受到专业领域语料库以及可视化技术的限制,本文构建的语义增强的科技创新路径,还有待于更加深入全面地研究科技创新演化路径现状、规律、进展与趋势等相关内容。