论文部分内容阅读
基因芯片技术的概念来自计算机芯片,发展至今不到二十年。基因芯片技术以其大规模、快速、高效的获取相关生物信息而闻名。基因芯片的原始信息都贮存在基因芯片图像中。图像文件中并没有直接信号值,如靶点强度值、背景强度值等信息,必须通过图像处理提取才能得到各靶点的相应数据信息。本文在基因芯片图像处理与数据提取方面进行了有意义的研究。首先,在基因芯片图像预处理方面,本文根据基因芯片图像噪声的特点以及常用的滤波算法,提出了形状自适应DCT滤波方法。此方法通过变换尺度的定向核自适应地为每个像素点选择邻域,同时由于离散余弦变换自身的特性,能够对图像进行有效的滤波。通过主观与客观评价,相比于其他基因芯片图像滤波方法,该方法能够比较好的抑制噪声。其次,在靶点分割方面,本文总结了常用的基因芯片图像分割方法,提出了改进的K-means聚类靶点分割算法。K-means聚类算法在大数据量时的扩展性和效率都较理想,适用于基因芯片的图像分割处理。针对K-means聚类算法的缺点,本文对其进行了改进。改进后的算法分类结果清晰,有效避免K-means聚类算法中可能出现的陷入局部最优或者产生空类的情况。通过与其它分割算法分割效果的对比,该方法具有一定的优越性。最后,在数据提取方面,对基因芯片图像的靶点信号强度与背景信号强度进行了提取与校正,并且运用散点图与MA图对数据进行了预处理。通过预处理,可以方便地判断基因是发生了上调还是下调。