论文部分内容阅读
随着生物技术的发展,生物实验生产了海量数据,为了对这些数据进行处理,从系统层次理解生物系统的“系统生物学”被生物学家们提出并得到了迅速发展。在疾病研究领域,疾病的发生发展是有一定过程的,生物实验中与疾病有关的数据常常包含时序信息。如何有效地运用数据中的时序信息是生物数据处理中的一个研究热点。在生物实验中,常常由于各种原因导致生产的数据中样本数太少,而数据中特征的维度很高;同时一些疾病表现形式过于复杂,造成数据中的样本标记可能错误。生物小样本数据中的类别标记错误对于数据中信息的发掘有很大影响。本文关注于生物时序数据的分析以及小样本数据中错标记问题的研究,完成的主要工作有:
1.生物标记物可以用于表征系统、器官、组织、细胞等功能或结果的改变以及可能发生的改变,寻找并发现有价值的生物标记物可以为疾病的诊断和治疗提供有效帮助。本文给出了一种面向时序组学数据的生物标记物选取方法,运用数据中的时序信息选出了一批可用于疾病分析的生物标记物。
2.依据疾病的产生会影响生物体有序组成结构的思路,针对人体糖尿病的血液蛋白质组数据采用多种方法分析糖尿病个体与正常个体之间差异,结果表明糖尿病个体内的蛋白表达较为混乱,同时糖尿病前期是一个高熵状态。
3.针对现有的工作中对生物小样本数据中的错标记分析研究不够深入,本文深入地分析了错标记对生物小样本数据造成的影响,并从数据特征角度出发提出了多种方法用于错标记样本识别,实验表明这些方法具有较好的效果。