论文部分内容阅读
数据驱动指以数据作为主导因素的决策支持方法,从广义的角度看,所有的行为都是数据驱动,从狭义的角度看,数据驱动的对立面是经验驱动,在经过数据采集、数据建模、数据分析三个过程后,杂乱的数据就可以转换为决策支持的结果。“精准医疗”体现的个体化医疗理念,与传统中医学因人、因地、因时制宜,辨证论治的思想是一脉相承的。因此,本研究提出的“精准”诊疗指将中医的精准性放到数据和数据的相关关系上解读,通过改进和引入机器学习等人工智能方法,对蕴藏中医知识资源丰富的经典文献和中医医案及相关数据信息进行特征提取和可视化梳理,实现对“病—证”的不同状态和阶段的精确分类,找到“症—病—证—治”的精准对应规律,进一步优化辨证论治的医疗过程,提高中医临床疗效,是中医诊疗客观化、规范化、信息化的交叉研究成果。目的:探索中医药多源异构数据融合处理方法,研究中医药文本数据由经验资料转换为客观资料的方法,设计基于文本特征处理的计算方法,实现对中医四诊资料的自动化处理,以量化的方式完成对中医四诊文本数据的辨证论治。以中医文本特征数据为主要研究对象,寻找中医疾病与中医证型间的相关关系,发现中医症状-疾病-证型-治法-方药间的规律和联系,构建以数据驱动思想为指导的中医精准诊疗模型。方法:(1)采集《中医内科学》教材中关于中医病、证的概念、定义、症状、治法和方药信息,采集《中医大辞典》中有关中医名词术语与症状体征要素,进行数据去重、归一化等预处理流程,结合科技部基础性工作专项的相应成果组建中医药多源异构数据集。(2)采用jieba分词工具对中医文本数据进行分词,实现文本数据从非结构化到文本向量的转变。(3)运用TF-IDF算法和TextRank算法分别提取文本向量中的关键词特征,并计算特征权重,运用Precision、Recall、F1评价方法对提取计算结果进行评估选择,山此实现对多源异构数据的融合处理。(4)运用数理分析方法提出一种中医诊疗特征相关性计算方法,并使用Visio Studio 2015+C#语言实现,以相关度表征精准性,能够结合疾病的症状特征、各个疾病对应各个证型的症状特征以及其特征权重,通过特征选择和加权计算的方式,量化辨病和辨证的过程,从而实现辨证论治的客观化,得出精准的辨证论治结果,实现中医精准诊疗实现。(5)采用中医病证结合诊疗模式思想,运用方法(3)将《中医内科学》中的疾病、证型概念和症状表现进行特征提取和权重计算,得到疾病-特征相关关系和疾病-证型-特征相关关系,结合疾病-证型-治法-方药联系分别构建中医辨病模型、中医辨证论治模型,最后结合中医诊疗特征相关性计算方法构建基于数据驱动的中医精准诊疗模型。(6)利用Cytospace软件将模型内容可视化并进行网络拓扑分析。结果:(1)数据采集阶段共获得中医病名69种,对应证型366个,相应治法366条,处方366条,概念名词及症状体征要素22989条,共计138336字,构建了中医药多源异构数据集。(2)使用来自中医诊疗数据集中的“病名”和“概念”两个字段的数据构建中医疾病文本数据集,涵盖了《中医内科学》教科书中69种中医疾病的名称和其相应的疾病定义、症状表现。对中医疾病文本数据集进行分词并使用TF-IDF算法进行特征提取和权重计算,共得到有效特征1271个,权重大于0.6的共241个;使用TextRank算法进行特征提取和权重计算,共得到有效特征862个,权重大于0.6的共534个。经过对两种算法模型结果评价,选用TextRank算法模型的结果作为构建中医辨病模型的数据。在完成疾病特征提取和权重计算后,通过特征将疾病有机地联系起来,用于探索病和病之间的关系,将TextRank算法模型计算的结果导入cytoscape软件中,以中医病名作为target结点,特征作为source结点,权重作为边,完成建立了感冒疾病特征网络、肺系疾病特征网络和全部疾病特征网络。(3)使用自中医诊疗数据集中的“病名”、“证型”、“症状”、“治法”、“方药”五个字段,涵盖了《中医内科学》教科书中69种中医疾病的名称、366个证型的全部概念、症状以及相应治法方药信息数据构建中医证型文本数据集,对中医证型文本数据分词并使用TF-1DF算法共得到有效特征6194个,权重大于0.6的共741个,使用TextRank算法共得到有效特征3490个,权重大于0.6的共2553个。在对两个模型结果进行评估后,虽然TextRank和TF-IDF在提取特征词上都具有较高的准确率,但TextRank对特征提取的数量远不如TF-IDF多,综合考虑到在后期精准模型计算中权重亦是主要影响因素,鉴于TextRank计算的权重较高,故构建辨证论治模型时选用TextRank提取的特征和权重作为模型基础数据。在完成证型相关特征提取和权重计算后,通过特征将各类疾病和各种整形有机联系起来,用于探索病和证之间的关系,将TextRank算法模型计算的结果导入cytoscape软件中,以中医证型作为target结点,特征作为source结点,权重作为边,分别建立感冒的证型特征网络、肺系疾病的证型特征网络、中医内科学全部证型特征网络以及疾病特征网络与证型特征网络的融合网络,最终得到“病-证-特征”的关联网络,能够从特征匹配和权重计算入手完成辨证论治的流程。(4)基于数据驱动的中医精准诊疗模型是在中医辨病模型和中医病证结合辨证论治模型的基础上,融合中医诊疗特征相关性算法而成。中医诊疗模型的精准性通过中医诊疗相关性算法中的相关度体现,就是将这种主观判断的过程使用量化的方式进行计算,使辨证论治过程由计算概率转变为计算相关性,最终将相关度作为精准性的评价参考。通过输入中医四诊资料,模型能够自动分析资料中相关的中医特征,通过中医辨病模型和辨证论治模型进行辨病和辨证,并通过相关性算法计算得到最终的辨证论治结果。经3种类型中医病案测试,分别达到完全正确、有所偏差、部分正确的辨证论治结果;经60例名中医医案样本测试,发现基于《中医内科学》教材数据构建的模型对近代中医医案诊断精准度为10%,对现代中医医案诊断精准度为60%,模型精准性符合预期,可以实现针对多源异构文本数据的辨证论治。(5)本研究在以下方面有所创新:a.通过建立中医专有词汇数据字典,引入jieba工具对中医文本数据进行中文分词,使用TF-IDF算法和TextRank算法提取分词结果中的中医关键词特征并计算特征权重,实现中医文本数据向量化。b.首次提出了一种基于中医文本特征和特征权重的中医诊疗特征相关性计算方法,通过计算向量化的文本特征数目和特征权重,可以获得特征集合与中医各个病、证之间的相关性,从而建立基于特征和权重的中医病-证相关关系。c.基于数据驱动的思想构建了动态开放的中医精准诊疗模型,以中医病证结合诊疗模式为基本结构,由辨病模型、辨证论治模型和相关性计算模块三个部分有机组成,对向量化的中医四诊资料先辨病再辨证,并通过计算四诊资料与病和证的相关性实现精准诊疗,最终输出四诊资料对应的中医病名、证型、治法和方药。结论:(1)中文分词是研究中医药大数据的一项重要方法和工具,中医的描述性语言可以通过中文义木分词的方式由句子变为词汇,从而让计算机更容易“理解”文本数据。(2)TF-IDF算法和TextRank算法能够提取中医文本数据中的特征关键词,并可以计算特征的权重,TF-IDF可以提取出更多的特征,但是权值的平均值较低,TextRank提取的特征数目没有TF-IDF多,但权值的平均值较高。(3)通过构建基于特征的中医辨病模型和辨证论治模型,发现中医各个疾病、各个证型之间都存在强弱不一的相关关系,通过计算其相关性可以将中医各个疾病、证型有机地联系起来,实现了中医诊疗的客观化表达,同时验证了中医“整体观念”思想。(4)本研究构建的中医辨病模型和中医辨证论治模型可以通过对中医四诊资料的特征匹配和权值计算的方式完成中医辨病和辨证论治过程,整个过程均可回溯,且每个流程均以量化的方式进行。(5)基于数据驱动思想设计的中医诊疗模型能够实现对中医药多源异构的处理,能够在有监督的条件下学习中医“理、法、方、药”知识,实现中医人工智能。该模型可以理解描述性中医四诊资料,并自动从中提取辨证论治过程中所需的文本资料,经过特征提取和相关性计算后,能够输出四诊资料的诊疗结果,为中医诊疗的客观化、规范化、信息化研究做出了一定贡献。