论文部分内容阅读
系统评价是循证医学非常重要的证据基础,它对于临床治疗、诊断测试和风险分析等都具有重要的参考价值。筛选参考文献是系统评价一个的步骤,通常需要至少两名专家进行人工审阅。由于医学文献数量的快速增长和医学数据库搜索引擎的特异度较差等问题,使得筛选参考文献成为了一个耗时耗力的过程。许多研究表明使用自动文本分类技术可以极大减少专家人工审阅文献的工作量。本文提出了一种基于文献相似度的系统评价引文筛选算法。该算法针对现阶段基于机器学习的自动文本分类算法存在的数据集不均衡和结合主动学习的机器学习分类算法训练初期数据不足等问题,通过使用文献的标题、摘要和出版类型等信息来计算文献之间的相似度,根据专家的文献筛选情况和文献之间相似度对文献进行优先级的排序以达到加速引文筛选过程的目的。本文使用LDA(Latent Dirichlet allocation)主题模型分别构建了标题和摘要的特征向量,使用词袋模型构建出版类型的特征向量,通过计算特征向量之间的余弦值来衡量文献之间的相似度。为了验证本文算法的有效性,本文基于Cochrane图书馆(Cochrane Library)提供的数据构建了十个主题的系统评价引文集作为测试数据,对比了系统评价引文筛选领域的另外两个经典算法结合主动学习的支持向量机分类算法和结合主动学习的朴素贝叶斯分类算法,结果表明在使用标题和摘要分别作为输入时,本文算法的WSS95分数比其他算法都要高出20.09%以上,而在使用出版类型作为输入时,本文算法的WSS95分数仅比其他算法低1.93%,证明了本文提出的算法可以有效减少专家进行系统评价引文筛选的工作量。本文设计并实现了一个系统评价引文筛选系统。该系统的主要功能是协助用户进行系统评价引文筛选,并给出了文献的优先级分数,作为用户停止文献筛选的一个参考值。为了方便用户查找文献,系统实现了文献检索功能,可以使用文献的不同元素信息进行相似主题文献的查找。系统还对用户的文献进行了同一的存储管理,方便用户使用该系统保存和管理文献。