错误发现率的非参数估计及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:GPSCMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂数据主要表现在相依、非线性、维数高与不完全观测等,在股市、基因序列和经济等领域中经常出现。为解决巨型数据集合问题,数据挖掘的理论、方法和技术已应运而生。而针对诸如怎样同时检验成千上万个基因中哪些基因的表达水平有显著性差异之类的高维统计推断问题,以错误发现率为主要特征的估计方法无疑为其提供了一个有效的解决途径。本文主要研究错误发现率在各种参数模型和非参数模型下的控制检验方法,全文共分为四章。文章首先在多重假设检验的背景下引入了错误发现率的定义,提出利用P值进行假设检验,并在检验统计量独立和相依的情形下对错误发现率的控制方法进行了探讨。在研究错误发现率的控制方法时,发现在处理多重假设检验问题时,核心的问题是估计真实零假设的个数,本文采用经验贝叶斯估计来估计它的值。在参数混合模型和非参数混合模型中研究真实零假设的估计问题是本文的核心内容。针对正态混合分布模型和Beta混合分布模型两种参数混合模型,文章采用矩估计方法和基于P值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta分布拟合模型和Bernstein多项式拟合模型的方法。文章的最后以Hedenfalk报告的一组乳腺癌患者的基因数据为例进行仿真研究,发现错误发现率为微阵列数据的多重假设检验提供了合适的错误控制指标。
其他文献
生产性服务业作为中间投入行业,具有知识、技术和资本密集性的特征,可以直接为制造业提供专业化的优质服务,是制造业竞争力提升的重要推动力,在制造业升级中发挥着至关重要的
提出了一种电磁式延时型剩余电流动作断路器研发过程,分析了产品相关参数的设计选形过程。以电磁式延时型剩余电流动作断路器产品为例,建立起基础式研发、针对性试验思路,对相关