基于参数估计的张量分解研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:handy1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
混合模型是指一个大的分布是由多个子分布混合而成,每个子分布可以被认为是一个隐变量,即该变量无法被直接观测到,但又能真切的影响到整体分布中观测变量的取值。混合模型参数估计,即要挖掘该模型中的子分布,根据一定的先验知识对子分布做出假设,并根据实际的样本数据来估计其每一个子分布的参数。传统的混合模型参数估计的求解方法主要分为两类:统计学习类算法和矩估计。统计学习类算法,如期望最大算法(EM,Expectation Maximum),该类算法用极大似然估计的思想,通过“求最大似然”和“求期望”两个步骤进行迭代,逐渐接近最终求解值。该类算法计算简单,但容易陷入局部最优值,因此学者们考虑用矩估计的思想来解决该问题,主要运用张量建模样本矩来近似样本的真实矩。张量是向量矩阵在高维空间的自然扩展,向量只有一行数据(一维数据),矩阵具有行和列(二维数组),张量则是多维数组的形式。张量得益于高维空间的数据结构,可以描述多个变量之间的复杂函数对应关系。本文用张量分解来对混合模型的参数估计问题进行求解,属于矩估计的范畴。根据样本数据求出其二阶和三阶矩,用张量分解的方式,直接求得待估计的参数。本文首先阐述了张量分解、混合模型等基本的概念及张量分解在混合模型参数估计领域的应用。之后,以提高张量分解求解混合模型参数的效率为目的,将传统张量分解算法与“分而治之”的思想相结合,提出了本文的块张量分解算法(PTD,Partitioned Tensor Decomposition),并通过实验详细论证了该算法的有效性。同时,本文又进一步设计并实现了基于Spark平台的PTD算法,使得该算法能够满足工业界应对大规模数据的挑战。本文的主要贡献有以下三个方面:(1)提出了“锚张量”的概念,通过锚张量的共享,将一个大张量划分为几个小的子张量,可以对每个子张量进行并行分解,大大提高了分解的效率。同时通过本文提出的匹配机制,可以将每个子张量的分解结果,精确的合并为待估计的混合模型参数。(2)改进张量分解算法。通过对传统张量分解算法中迭代公式的研究和推导,提出了“负值置0”和“加入极小正值”两个操作,既保证了张量分解结果的非负性,又提高了该算法的鲁棒性。(3)通过Mapreduce机制在Spark平台设计实现并测试了本文的算法。通过对Mapreduce思想的研究,将本文改进的算法PTD在Spark上实现,使得该算法具有应对大数据的能力。实验结果表明,相比于传统的串行算法,本文的改进确实能提高张量分解的效率,能够在保证准确率的基础上,更加高效的进行张量分解,同时,Mapreduce化算法的实现,使得该算法具有应对大数据的能力。
其他文献
近年来,由于分数阶微积分的运用背景逐渐扩大,在研讨上取得了巨大进步,被广泛使用于现实生活中,一些与整数阶边值问题相关的研究也逐步被扩展到分数阶的研究中,引起了众多学者的重视以及普遍关注.普通的方程在使用的时候具有一定的局限性,对生活中出现的越来越复杂的问题不能作很好的诠释,p-Laplace算子和Langevin微分也开始被引入此类方程并运用到了很多领域.本文主要工作是对几类分数阶微分方程边值问题
近年来,无线移动通信的迅猛发展对移动通信系统数据传输速度和信道容量的需求与日俱增,稀缺的频谱资源日渐成为制约移动通信业务发展的桎梏。一方面,MIMO(Multiple-Input Mul
面对医疗大数据时代的海量医学影像资源,如何进行有效存储管理并进一步做好知识挖掘是亟需解决的难题。传统管理方法注重数据的存储与检索,忽略了对其中丰富解剖学和生理学信
目前,精准农、林业信息化技术研究多是对数字植物的仿真模拟。有关虚拟花卉植物的研究很多都是利用图形建模知识来模拟花卉植物的生长和变换,计算复杂且操作不灵敏。随着三维
随着现代科技和生活的不断进步,对室内环境中人体目标的活动状态监测的需求愈加迫切。穿墙场景下的人体目标行为识别在智能家居、反恐和应急救援等方面都具有重要的应用前景
电化学分解水是制氢的有效方法之一。传统的贵金属类催化剂尽管表现出优异的电催化活性,但高成本和低储量的问题在很大程度上限制了其大规模的应用。研究发现,廉价高效的过渡金属硫化物(如MoS_2)近年来受到人们的关注,该类二维材料已被广泛用于电催化析氢反应(HER)中。然而,纯MoS_2本身存在易团聚、导电性差等缺点,严重影响了此类催化剂的HER性能。本论文以改善MoS_2分散性和导电性为出发点,通过水热
随着信息科学的不断发展,基于新材料的半导体器件研究成为必然趋势。在各种新型半导体材料中,六方氮化硼因其宽禁带、高热导率、二维性等诸多优点备受关注。基于六方氮化硼薄
为追求司法实务的可操作性,司法人员在涉正当防卫的案件中形成了从结果出发看问题的惯性思维,最终导致了“唯结果论”的做法。在损害结果出现的场合,正当防卫的辩解几乎无法
合作标志,是人为设计的具有结构简单、特征明显、易于定位特点的人工标志,可用于辅助测量过程,提高测量的精度和可靠性。其中,编码标志与一般的合作标志不同,其可以根据自身
家庭是社会工作理论与实践研究的重要领域。宏观视野下社会阶层分化或流动的争论一直存在,微观视野的家庭教养在中国家庭文化体系中的地位越来越受到研究者重视。社会工作因