论文部分内容阅读
基础教育知识图谱是一个正在建设的项目。本论文是其中的一个小分支的工作——通过连通性的建立,试图挖掘和展示概念与概念之间的联系,甚至是不同学科的概念之间的联系,以方便后续教学应用的进一步开发。具体研究内容如下:在创建基础教育知识图谱时,需要对数据库中的语料进行分词。由于词典可以简单高效的实现对语料的划分,所以本文采用Han LP分词器中的词典进行分词,但词典在基础教育方面存在着未被收录的词语,即未登录词。为了提高知识图谱连通性构建的成功率,需要向词典中添加基础教育领域方面的未登录词。文中采用N-Gram方法对原始数据分词,并统计词频,设定阈值筛选种子词语,运用左右熵和互信息方法进行过滤,筛选出未登录词,进一步完善词典。本文在构建基础教育知识图谱连通性的过程中,提出了一种基于混合语义的A*算法,并以双向广搜算法作为对比。在该算法的启发式函数中,针对余弦相似度方法计算实体间距离时存在的缺陷,提出了一种基于词性权重的余弦相似度算法。此算法通过添加词性权重来提高实体间的联系,同时引入相关参数来调整误差。最后本文设置不同的条件对提出的算法进行验证。在添加登录词和未添加登录词这两种情况下,分别从时间、度数和连通数这三方面展开分析。结果表明在构建基础教育知识图谱连通性的实验中,基于混合语义的A*算法中所运用的关于词性权重的余弦相似度方法在时间和连通数方面要远远好于双向广搜算法。实验表明在现有条件下,基于混合语义的A*算法能够完成连通性构建的任务。