【摘 要】
:
数据缺失是许多实验研究和社会调查领域中经常发生且几乎无法避免的问题。缺失问题的产生不仅会增大数据分析过程的难度,还会导致分析结果的准确性和可靠性下降。近年来,如何合理有效地填补缺失值已成为不完整数据分析中的一大研究热点。基于属性间的多种回归关系,本文提出使用Takagi-Sugeno(TS)模糊模型对不完整数据建模,并将其用于缺失值填补。在此基础上,为了进一步提升填补精度,提出一种交替学习策略用于
论文部分内容阅读
数据缺失是许多实验研究和社会调查领域中经常发生且几乎无法避免的问题。缺失问题的产生不仅会增大数据分析过程的难度,还会导致分析结果的准确性和可靠性下降。近年来,如何合理有效地填补缺失值已成为不完整数据分析中的一大研究热点。基于属性间的多种回归关系,本文提出使用Takagi-Sugeno(TS)模糊模型对不完整数据建模,并将其用于缺失值填补。在此基础上,为了进一步提升填补精度,提出一种交替学习策略用于协同训练不完整数据模型参数和填补值。该方法通过不完整数据聚类算法将数据集划分为若干个模糊子集,并针对每个子集建立一条规则来描述其属性间的回归关系。建模过程中,它采用逐步回归算法选取显著变量作为每条规则的输入,以增强TS模型拟合能力。当模型结构得以确定后,随机初始化缺失值,并开始参数和填补值的交替学习。在交替学习过程中,基于重构的数据集求解模型参数,并根据求出的参数计算缺失位对应的模型输出以更新填补值。反过来,当填补值更新后,基于新的重构数据集调整模型参数,并根据调整后的参数继续更新填补值。当模型拟合能力基本保持不变时,交替学习结束,输出最后更新的重构数据作为期望填补数据集。本文提出基于模糊划分对不完整数据进行回归分析,并在TS建模过程中动态填补缺失值。不仅达到了现有数据的充分利用,而且实现了模型准确性和填补值精度的协同提升。实验结果表明,相较于传统回归填补法,基于不完整数据TS建模能更有效的填补缺失值。而且,采用逐步回归算法选取显著变量作为TS模型中每条规则的输入,能够增强其拟合能力。更重要的是,通过参数和填补值进行交替学习,能够进一步有效提升填补精度。
其他文献
数字签名是信息安全技术的重要组成部分,在身份认证、数据完整性、不可否认性等方面有着重要应用,已成为现代密码学的主要研究内容之一。传统数字签名的认证方式是一对一认证
中学阶段是中学生人生的一个转折点、一个分水岭,要是能够得到正确的引导,中学生将会发展成为一个拥有健全人格、拥有充足知识素养的优秀学生,如果在错误观念、错误思想的引
互联网产业自出现以来,以全新的方式改变了传统的生产、生活,大数据产业在互联网海量信息发展到一定阶段应运而生。大数据应用是海量数据对现代信息技术的冲击,必将对现有的
沿海是人类与海洋交互最频繁的海域,海洋洋流变化对沿海渔业、航运、污染、军事等很多问题会产生重要影响。在每年4月至8月期间,居住于美国东北部与加拿大东部的近海岸居民经
在发展中国家中如巴基斯坦,大多数妇女被限制于家庭内部活动中,承担着抚养子女和家务劳动,在社会经济地位方面处于弱势地位。巴基斯坦农村妇女在社会经济地位方面的低权能水
对自然场景中的文本区域进行检测,是计算机视觉方面的一个重要应用,同时也为许多应用提供了一部分技术支持,如对视觉障碍者的计算机辅助系统、城市环境中的机器人导航系统、自动驾驶系统等等。目前对扫描文档的检测已经可以满足各种应用场景,但对于自然场景中的文本检测和识别,由于文本只占图像的一小部分,而且自然场景的背景较复杂,自然场景中的文本也有各种颜色、尺寸、形状的区别,同时还有光照、遮挡等因素的影响,因此是
区域经济发展不平衡与企业转型升级加剧劳动力市场的技能型人才竞争,随着人才需求增加和劳动力素质提升,技能型员工的自主流动现象显著增强,表现为工作搜寻行为更加主动和非收入因素成为求职的重要影响因素。工作搜寻行为是求职者获得市场信息、寻找工作机会的重要过程;求职绩效能够衡量员工就业质量、预测企业人才稳定性;而社会网络作为获得信息资源的非正式机制,对前两者均有重要影响。以往研究更多关注工作搜寻行为对工作起
石油作为一种不可再生的战略资源,在国民经济中扮演着重要的角色。随着国家经济的迅速发展,对油气需求量日益增加,现有油气供不应求,随之油气的开采逐渐由内陆向海洋、浅层向深层、超深层发展,开采难度逐渐增大。在开采过程,石油工程师注重如何提高油气的采收率,很少关注安全问题。然而在钻采作业中,偶尔发生钻柱、套管柱、油管柱、抽油杆柱断脱或刹车不灵或操作失误,导致管柱沿井筒向下滑落冲击井底。在此工况下,管柱受到
上世纪60年代,I.I.Shapiro提出了利用雷达回波延迟来验证广义相对论[1]。雷达回波单程的时间延迟可以写为:其中γ是PPN参数[2,3],r是粒子距引力源的距离,x是引力源在原点的笛卡尔坐标系的横轴坐标。雷达回波延迟被人们称为广义相对论的又一经典检验,该实验也被用来限制PPN参数γ[2-5]。目前关于γ参数最精确的限制(γ-1)=(2.1 ± 2.3)× 10-5就来自于2003年的Cas
研究目的:在T2DM模型形成前施加不同方式的等量运动预干预即在模型建立过程中施加运动干预,探究不同方式运动对2型糖尿病大鼠造模后骨骼肌和脂肪组织瘦素分泌和骨骼肌leptin-