论文部分内容阅读
慢性呼吸道疾病已成为一种易发、高发,而又往往被人们所忽视的慢性疾病。常见的慢性呼吸道疾病包括慢支气管炎、肺气扩、支气管哮、肺结核、肺癌等。由于病理研究对慢性呼吸道疾病的形成机理尚未完全阐明,因此如何通过临床检测与处方数据实现对不同慢性呼吸道疾病的临床鉴别诊断是呼吸科重要的临床需求之一。随着医疗物联网应用的日益普及和医联工程示范应用的推进,从海量的诊疗数据中挖掘医学知识正成为国内外医学信息学研究的重要方面。医疗知识的新发现往往来源于对临床医疗医案资料数据的整理研究。目前临床医学诊疗数据的整理方式大多都是个人研读,独自发展。这种依赖于个人经验、能力、知识水平的医学传承方式,使得许多宝贵的医学知识无法得以科学的归纳总结和延续,特别是在当下大数据时代,科学、快捷、准确的数据分析方法的应用显得尤为重要。本文针对慢性呼吸道疾病临床数据的关联规则与聚类展开挖掘算法研究,通过文献分析提出新算法设想,编程实现新算法,并通过仿真实验和临床数据对新算法进行验证。最终实现慢性呼吸道疾病的部分临床鉴别,一定程度上满足呼吸科实际的临床需求。本论文研究的主要工作及特色有:第一、设计和实现了电子病历系统,并建立了用于数据挖掘研究的慢性呼吸道疾病病人临床医疗数据获取方法。本文通过该电子病历系统及其工具实现了相关医疗数据的收集和检索,即使用Ensemble平台的studio工具编写程序来提取电子病例系统慢性呼吸道疾病患者的处方数据和临床实验室检验数据,详细地阐述了研究所用的临床诊疗数据的来源途径。第二、提出了一种挖掘慢性呼吸道疾病诊疗知识关联规则的Apriori算法,并应用其分析慢性呼吸道疾病病症的临床实验室化学指标特性数据值,以及各个涉及到的主要化学指标数据值之间的关系,阐明了该算法对于临床数据研究具有的实际意义。第三、提出了一种聚类慢性呼吸道疾病诊疗数据的改进模糊聚类算法。针对传统的模糊聚类算法存在的计算量大和聚类效果不明显等缺点,本文方法从以下四个方面进行了改进:(1)对初始数据集合以及循环迭代后的聚类结果引入了数域转换。虽然数域转换的引入增加了计算步骤,但是对于算法整体而言,数域转换后可以加快算法收敛速度,总体上提高了计算效率;(2)由于加权系数m能够影响聚类的效果,因而在运行聚类算法前,需要采用模糊决策工具讨论加权系数m的取值,使得最终的聚类效果达到最佳;(3)为了减少孤立点对聚类计算过程的影响,本文提出基于层次凝聚的初始化聚类中心选择方法,使所选择的初始化聚类尽可能逼近最终的聚类,减少聚类计算过程;(4)传统的模糊聚类算法没有考虑聚类数的问题,本文引用基于粒度原理的有效性函数,计算最佳聚类数。最后,本文利用标准IRIS数据集的计算机仿真验证试验,从聚类正确性和计算效率两个方面,对比改进算法和传统模糊聚类算法,验证了改进算法提高了数据样本分类的正确性,且快速的收敛也使计算效率得到了提高。同时,临床数据验证结果表明基于改进的模糊聚类算法对于慢性呼吸道疾病治疗数据的分析以及疾病辅助诊断方法的优选有着明显提高判断作用和科学性。