基于Hadoop平台的并行LDA学习方法研究与应用

被引量 : 0次 | 上传用户:ramondwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多学习和数据挖掘算法性能的好坏在很大程度上取决于能否获得一个好的距离度量。本文研究的内容是关于马氏距离度量的学习。关于马氏距离度量的学习主要可以分为三大类:特征向量的方法、凸优化的方法以及全局监督的方法。特征向量的方法已经被广泛地用于寻找基于输入数据集的有效的线性变换。常用的特征向量方法有:主要成分分析、线性判别式分析以及相关成分分析。然而在如今这个海量数据的时代,传统的单机距离度量学习方法往往无法满足各种学习方法对于其时间和空间上的要求。因此,如何高速并行地完成距离度量学习的任务是一个富有挑战性的问题,具有重要的理论和实用价值。目前,以MapReduce编程模型为基础的云计算平台为海量数据的距离度量学习提供了新的解决思路。本文提出并实现了一种基于Hadoop平台的并行距离度量学习的方法。该方法首先并行计算每个类别的平均向量,从而得到类别间的协方差矩阵;然后在此基础上,通过并行计算得到同一类别内的协方差矩阵;最后通过求特征向量的方法得到线性变换的矩阵。在不同大小的数据集上的实验结果表明,该方法大大提高了距离度量学习的效率,具有较好的加速比。本文还将并行化距离度量学习的结果应用于并行化k-近邻分类,在不同大小的数据集上的实验结果表明,距离度量学习对于提高k-近邻的分类准确率具有显著的效果。而且,并行化的k-近邻分类本身也大大提升了分类的效率,具有非常好的加速比。
其他文献
浮法玻璃生产企业通过建立ISO14001环境管理体系(EMS),可以提升企业的对外形象,增加企业的综合竞争力,企业在建立EMS时,如何识别和评价环境影响因素,即如何实施ISO14001:1996
1937年7月至1945年8月的抗日战争,各族人民在强烈的爱国主义精神感召下紧紧聚在一切,自觉维护祖国统一和民族尊严的高尚情操,表现出各族人民同患难,共甘苦,心连心,共命运的爱
契丹大字《耶律昌允墓志》(1084)于2000年8月由内蒙古赤峰市元宝山区文物管理所工作人员,在该区小五家子回族自治乡附近一座被盗的辽墓中发现。墓志共30行,刻有878个契丹字,
20世纪80年代是一个思想解放、新潮迭起的时代,也是价值观念重构的社会转型期。80年代散文创作既受到“十七年”散文政治抒情模式的制约,也在80年代社会变革的背景下突破固有
第一部分128层螺旋CT减半时间低辐射剂量全脑灌注成像的可行性研究目的探讨128层螺旋CT全脑灌注减半时间低辐射剂量扫描的可行性和价值。方法我院颅脑灌注检查52例,其中A组(传
胃癌是最常见的原发性恶性消化道肿瘤,常见于中老年人。虽然近几十年来人们在胃癌的诊治方面取得了一定的进展,但胃癌的早期诊断率及总的5年生存率仍较低。随着免疫学及分子生
通过关键路径法(CPM)及计划评审技术(PEPT)建立数学模型,并应用Crystal ball工具进行模拟仿真,较准确地对北京师范大学资源学院探"所"活动总体完成时间进行了预测,有助于更灵
在相当长的时期内,房地产在中国不具有商品属性,而是在计划经济体制内实行福利住房分配制度和土地行政划拨制度。改革开放后,我国房地产市场才开始逐渐走向市场化道路。一系
目的:探讨肝癌HepB3细胞中蛋白磷酸酶2A的癌性抑制因子(CIP2A)的表达水平对凋亡素诱导凋亡效率的影响,为研究凋亡素特异性诱导肿瘤细胞凋亡的机制提供依据。方法:定制合成CIP