多元meta分析模型在大数据分析中的应用

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:yuanbowen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪以来,互联网尤其是移动互联网的迅猛发展引发了全球范围内各行各业的数据爆炸式增长,我们已然迈进了大数据时代的新阶段。由于大数据具有数量巨大、形式复杂、非结构化等特点,处理起来并不十分容易。当数据量很大时,由于计算机的存储量或软件对变量存储的限制,不能对数据同时进行处理分析,只能通过分块处理。此外,由于某些原因,数据集有时需要分栈式存储,研究人员无法获得全量原始数据,也只能通过分段处理。通常情况下,人们往往通过对分块或分段处理的数据分析结果进行简单平均获得全体数据的分析结果。然而这种分块或分段数据具有异质性,如何科学合理地对分栈式数据进行分析并汇总得到有效的结论是一个值得研究的问题。本文正是基于对上述问题的思考,提出了一种利用多元meta分析方法的大数据分析框架,旨在帮助更多不具备大数据分析技能的研究人员方便快捷地分析数据,同时也解决了如何将分栈式数据的分析结果有效汇总的问题。多元meta分析又称为综合分析或荟萃分析,是针对某一问题的不同研究结果进行合并分析的一种统计方法。本文依托多元meta分析方法构建了大数据分析的框架:将大数据分块分析的结果通过多元meta分析模型进行估计,并通过大量模拟实验考察该方法的有效性。模拟实验的结果表明:建立多元回归模型时,如果以偏差为评价标准,8种设定中有6种情况下多元meta分析模型的效果比简单平均方法更好,而以马氏距离和标准差为评价标准,8种设定都为多元meta分析模型的效果更好;建立Logistic回归和加大组间异质性时,3个评价标准下都是多元meta分析模型的效果更好。即绝大多数情况下,多元meta分析的表现要优于简单平均方法,可以得到较为优秀的模型参数估计。最后,基于多元meta分析的大数据分析框架应用于两个实际数据集。结果表明多元meta分析方法在随机分割数据集和按特征分割数据集两种情况下的分析效果。
其他文献
<正>1、低热、咳嗽超过七天,应排除肺结核,支原体肺炎。2、突然寒战、高热,伴有呼吸道症状,要考虑细菌性肺炎。3、胸痛而无胸膜摩擦音,要注意检查有无肋软骨炎、肋间神经痛、
美国新教在华传教运动持续一个多世纪,女传教士占了半壁江山,其海外奋斗似乎有违二战前的两性社会空间分隔观。"天定齐家"说揭示了新教妇女"齐家"与"天定使命"间的话语共谋,
邓卡琳(Mrs.Cleveland Keith)是鸦片战争后较早来到中国上海的美国圣公会女传教士,以其杰出的著述成就成为早期女传教士的代表人物。邓卡琳于1850年来到上海,在上海传教十余
2013年起欧盟实施了最新版地理标志保护制度,旨在通过“监管要求”、“增补制度”、“披露要求”、“取消制度”等措施以维护自身经济利益,实施农产品贸易保护,推进共同农业
中国内地会的三位女传教士冯责珠、盖群英、冯贵石,于20世纪二、三十年代在中国西北地区进行了泛围广大的巡回布道,其间曾四次因不同原因进入新疆游历传教。作为内地会在新疆
主动脉夹层(AD)是一种病情险、病死率高的急性大血管病变,容易导致误诊。现行临床影像学方法严重滞后了本病的诊断,耽误治疗,影响预后。因此找到特异性强、敏感度高的生物学
“互联网+”时代知识常以碎片化的形式存在于社会生活的各个方面,并呈现出零散、超载、无序、混乱的特征,这给人们获取知识带来了困难,影响了学习的深度与效果。而智慧学习却
数字化时代日新月异的技术革新给成人教育领域注入了新的血液与动力。当现代信息技术应用在成人教育教学方面,既满足了成人学习者的个性化学习方式,也是传统教育和在线教育的
主动脉夹层(AD)是一种严重危及患者生命的心血管疾病,病情复杂多变,进展迅速,病死率高。及时、准确、全面的诊断是指导治疗、降低病死率的关键。多层螺旋CT扫描速度快,分辨率
<正>古往今来,教师被赋予了各种各样的赞美,从"传道授业解惑者"到"春蚕到死丝方尽,蜡炬成灰泪始干",从"太阳底下最光辉的职业"到"人类灵魂的工程师"等等,这些赞美将教师这一