高维数据变量选择的几点研究

来源 :复旦大学 | 被引量 : 1次 | 上传用户:anabaow1a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择是高维数据分析的一个重要研究问题,而对似然函数加一个惩罚项是近些年使用最为广泛的变量选择方法。惩罚似然方法的提出始自上世纪六七十年代,但直到上世纪九十年代,统计学家才开始系统地研究惩罚似然方法的理论性质,其中研究较多的是线性模型和广义线性模型。针对具有重要实际应用背景的生存分析模型鲜有突破性的理论性质,其中的困难主要来源于生存分析数据的删失特征。本论文的一部分内容是针对生存分析模型研究惩罚似然方法的理论性质,主要研究了生存分析中最重要的Cox模型下惩罚似然估计量的oracle性质。我们在计数过程框架下研究高维、非齐次变量的Cox模型,在证明定理时,所加的正则条件仅加在真实的回归参数上,从而使得条件更自然,这有别于文献中其他方法所加条件。在实际应用中,人们更感兴趣的是如何快速有效地获得合适的参数估计。近十几年来人们提出了各种算法,大部分可以归结为路径算法。似然惩罚估计量的求解是一个最优化问题,对于凸惩罚其算法相对简单,而对于非凸惩罚的算法往往复杂多了。我们在第三章中提出了一种新的路径算法,该方法与文献中已有方法的优点是,可以更容易找到全局最优解。可以针对凸惩罚和非凸惩罚都得到有效的路径解。通过数值计算比较发现新提出的算法在计算效率上与现有方法有较大的优势。路径算法提供了一系列的解,必须从中选择最优的解,而针对低维数据的传统方法不适用于高维数据。大多数针对高维数据的前人工作是基于修正信息类准则,本文的第四章和第五章对交叉验证方法(一类数据驱动的方法)进行修正以分别应用于线性模型和广义线性模型,并证明了所得方法具有相合性,大量的模拟研究及实际数据分析结果证实了所提方法的有效性。
其他文献
经典确定性系统、随机系统的模型检验具有十分重要的意义。在模型检验中,不同种类的可达性定性、定量分析与系统的成功率、安全性、存活性、死锁检验具有十分紧密的联系。因
随着光电产业的发展和柔性显示、电子皮肤等柔性光电器件的兴起,传统的脆性透明电极(金属氧化物等)已经越来越难以满足要求,碳纳米管、石墨烯、导电聚合物、金属网格和金属纳
目的开发简单、快速、经济及灵敏度高的测定盐酸吡格列酮片含量的方法学。方法使用HPLC法,采用甲醇-水(80:20)为流动相,流速为1.0ml/min,检测波长为224nm。结果盐酸吡格列酮
目的比较血气生化仪和全自动生化分析仪在生化检验方面的效果。方法选择2016年2月至2017年2月医院接诊的96例急诊患者进行研究,分别采用全自动生化分析仪、血气生化仪进行电
问卷法调查显示,大部分高校教师对当代社会思潮有所了解,但总体来看了解并不深入;当代社会思潮对高校教师的影响较弱,但不容忽视;高校教师对当代社会思潮具体观点的认同总体
建设服务型工会组织是我国工会组织创新发展的基本目标,核心思想是将职工置于工会工作的中心,改革传统工会的组织体制和运行机制,提供满足职工需求的服务。通过收集会员的愿
随着科技进步,医疗条件的改善,人类寿命增加,加之人口出生率的持续降低,从20世纪末以来,世界各国老龄人口增多,人口老龄化已成为世界人口发展趋势,人口老龄化对社会经济发展产生深刻
一直以来,一线教师在如何提高教学有效性的问题上进行了许多积极的思考和探索,但大多数主要还是从教师的教学策略角度进行研究和思考。文章结合课题研究成果,以提高学生的审
近年来,随着房地产销售价格的不断攀升,投资者愈发看好楼市的发展前景,因而越来越多的热钱涌入房地产,甚至一些国外的投资商也看中了中国这片热土,造成了房地产投资过热的现象。上
<正>当前,以互联网为核心的新一代信息技术,以前所未有的速度和幅度,变革传播交流方式,重构工作理念和服务要素,重组产业体系,重塑经济社会结构,给工会组织带来严峻挑战和不