论文部分内容阅读
随着现代信息技术的迅速发展,许多领域都积累了大量的数据,我们渴望发现潜在于这些数据中的知识与规律,正是这一需求造就了数据挖掘学科的兴起及数据挖掘技术的发展。数据挖掘技术主要的目的就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,作为一个多学科交叉的综合性领域,数据挖掘涉及了数据库、统计学、机器学习、高性能计算、模式识别、神经网络和数据可视化等学科。聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽量小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上,产生性能好而且实用的聚类算法是其终极目的。迄今为止,人们提出了很多种不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户,而且它们在理论和方法上仍不完善,甚至还有严重的不足之处。对聚类算法的进一步优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。医学图像的数据挖掘不仅是数据挖掘研究领域的一个热点,也是难点。目前图像挖掘的工具较少,挖掘过程需要人工干预,很难实现完全的自动化。在实际的医疗工作中,医生对病人的医学图片的检查往往是通过多年的临床经验来进行的,而个人的临床经验又不可能面而俱到,何况检查的过程中还会存在很多的偶然性的干扰因素,所以很有必要利用数据挖掘技术为医疗行业提供帮助。孤立点分析又称孤立点挖掘、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测。孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值。因此,异常数据的检测和分析是一项重要且有意义的研究工作。本文针对传统的数据挖掘技术在图像挖掘方面的不足,分析了当前图像挖掘的特点及现状,并在全面、深入掌握数据挖掘技术的基础上,结合图像处理和医疗领域知识,提出了一种新颖的基于医学图像像素聚类的孤立点分析技术,详细介绍了孤立点分析技术在CT图像上具体的应用,描述了医学CT图像的孤立点分析方法及过程。该过程首先收集大量的医学CT图像,对原始图像进行预处理,然后进行像素聚类并提取参数,最后使用孤立点分析技术来挖掘出可能存在病变信息的图片,以此帮助医生高效率地进行疾病检查和诊断。