大数据分析的子抽样统计学习新方法及其应用研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:wywinnie1105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算能力相对有限的情况下,如何从大规模、高维数据中获取有价值的信息已成为大数据分析的重要研究方向。子抽样策略和变量选择方法是对大样本、高维数据进行数据降维、提高模型计算效率的常用方法。为解决建模分析过程中由于数据量快速增长所导致的计算瓶颈,本文将两阶段子抽样策略和变量选择应用到大样本分类问题的研究中。现有的大样本logistic回归模型的子抽样算法主要从最小化极大似然估计量的渐近均方误差、损失函数梯度、Hessian信息矩阵等角度定义子抽样概率。在稳健统计分析领域,具有高杠杆值的样本通常被视为潜在的异常观测,而实验设计领域已经证明具有高杠杆值的样本可以提高模型整体的预测效果,这在大样本线性模型的子抽样算法中已经得到充分验证。基于这一点,本文首先对logistic回归模型的杠杆值作归一化处理,定义子抽样概率,提出了两阶段杠杆子抽样算法求解该模型的极大似然估计。在此基础上,考虑存在稀疏表示的大样本logistic回归模型的求解问题,结合子抽样策略与变量选择技术,提出了子抽样-变量选择算法。最后,进一步研究重要性子抽样策略在大样本支持向量机中的推广。虽然该模型有很好的数学理论和泛化能力,但由于在训练过程中需要求解二次规划问题,由此而产生的密集计算使得它并不适用于大样本分类问题,为更好地将支持向量机应用到大样本数据的分类问题中,根据支持向量机模型解的稀疏性特征和支持向量与决策平面间的几何关系,以样本点与决策超平面的距离作为定义子抽样概率的依据,提出能快速求解大样本支持向量机的重要性子抽样算法。在不同模拟数据集中进行的随机模拟实验的结果表明:当数据的类别分布不平衡时,基于杠杆值的子抽样算法优于现有的几种子抽样算法;较均匀抽样而言,重要性子抽样与变量选择相结合的算法能提高模型的分类精度和模型的可解释性;基于样本点与决策超平面的距离的重要性子抽样算法的分类效果优于均匀抽样。
其他文献
近些年来,北京城市发展迅速,城市形象和空间品质得到显著提升的同时,原有的耕地却因转变为建设用地而逐年减少。城市化进程加剧,城市人口越来越多,城市内每天需要的粮食数量也就越来越多。且由于近年来北京市内市容市貌的整治,大量菜市场、农贸市场被取替,使得市民获取食物的渠道也大幅减少。虽然物流行业的发展在一定程度上弥补了食物的获取来源,但同时也增加了食物里程,不利于环境的可持续发展。本文首先对食物都市主义和
刘家琨的建筑思想有一条明线和一条暗线。他以“低技策略”和“人文关怀”被建筑业界熟知,其建筑设计的成就也被业界认可,其建筑思想有被其他建筑师研究的价值,也值得在未来的建筑史教科书中留下一笔,这是他建筑思想的明线。而作为建筑学毕业又从事文学创作然后又回到建筑行业的一个人,其建筑思想不止可以从建成作品与专业著作中去发现,其文学作品中会反映出他对建筑学和建筑行业的思考,这里可以找出一条暗线。这些对秩序与自
面对“滥用职权”适用不理想的困境,《行政诉讼法》(2014)增加了“明显不当”的规定。作为审查行政裁量行为合法性的一项重要工具,“明显不当”涉及了行政诉讼的核心话题——司法权与行政权的关系,而且是司法权与行政裁量权的关系。在不断高涨的权利意识和权利主张下,权威、中立的司法权与不断延展的行政裁量权之间如何“相处”是现代法治国家的重大课题。而对“明显不当”的研究是观察这一问题的最佳窗口。当前,在学理上
以石墨烯、羰基铁、钛酸钡为原料,采用流延的方法制备出石墨烯、羰基铁、钛酸钡以及石墨烯与羰基铁复合薄层微波吸收材料。通过同轴线法测量其电磁参数,使用NRL拱形架法对不同层数、不同组合方式的流延膜在2~18 GHz波段的微波吸收性能进行系统性探究。同时,使用波导法对薄层流延膜电磁屏蔽性能进行测量。结果表明,构成吸收型以及干涉型的吸波材料表现出优异的吸波性能,多层吸波材料整体厚度在0.45~1.43 m
互联网的发展带动了新型网络广告经济的发展浪潮,不断攀升的广告投放量在刺激用户过滤需求的同时,引发了视频网站经营者与广告过滤技术方的争议纠纷。由于多样的过滤纠纷涉及商业模式、竞争关系、技术创新以及法益保护等多方面因素,在司法裁判中也难以做出精准认定,甚至出现截然不同的裁判观点。撇开裁判结果的影响,笔者经实证考察发现目前法院裁判呈现一种多元利益衡量与传统侵权并存的裁判路径,在此路径之下裁判虽然具有竞争
太行八陉是北方地区重要的文化线路,沿陉分布着大量具有北方特色的传统聚落。本文选取其北部三陉,由北到南依次是军都陉、飞狐陉和蒲阴陉,对沿其分布的传统聚落进行梳理,借助Arc GIS平台,探究其历史演进规律和空间分布特征。首先,从相关史料入手,确定北三陉的地理范围,通过多种方志史料、汇编资料筛选出该地区传统聚落名录,利用Arc GIS平台描述上述聚落的空间分布;在此基础上进行建村年代演变进行可视化分析
中式画屏作为屏风的一个分支,是集功能和审美于一体的装饰隔断,在发挥遮内蔽外、协调空间的作用时,也承担着独特的视觉功能。中式画屏是文化与美学的视觉呈现,作为室内装饰中的陈设家具,其工艺材质、画面处理、色彩运用、空间构造等方面的视觉内容浓缩了中国几千年的文化精髓,它是政治、经济、艺术文化的物化形式,其中融合了美学、传统思想、心理等隐喻性视觉内容。随着生活方式的改变,现代中式画屏已经脱离了古代暗含身份等
在许多经济系统和随机控制系统中,往往需要用到随机包含问题,集值随机过程恰恰能够解决这方面的问题,集值来源于人们对经济分配问题的研究,体现出对事物描述的客观性,集值随机过程有着重要的理论价值与应用前景。由于模糊数的水平截集是集值,模糊集值随机过程和集值随机过程在人工智能等领域得到应用。本文主要分为两部分集值积分与模糊集值回归,首先对国内外研究现状进行阐述并给出本文所用的相关记号表示,给出根据模糊集值
学位
文化是铸就在一个民族生命力、向心力和创造力之中深沉的力量,文化产业已经逐渐成为了国民经济和各国之间竞争力重要的构成部分。我国刚刚结束的“十三五”规划中明确的指出要敦促文化产业成长为国民经济的支柱性产业;刚刚迎来的“十四五”规划中也对文化产业的成长发展提出了相关的建议,鲜明的指出要统一社会和经济效益,完善健全现代文化产业和市场的体系。北京作为首都,其文化产业的成长发展对于全国来说拥有着示范引领的作用