【摘 要】
:
互联网时代的数据正在呈指数级的增加,如何在海量数据中找到有价值的信息正是数据挖掘领域的一个日益严峻的问题。聚类算法是数据挖掘中被广泛应用的算法。它能把数据分门别类
论文部分内容阅读
互联网时代的数据正在呈指数级的增加,如何在海量数据中找到有价值的信息正是数据挖掘领域的一个日益严峻的问题。聚类算法是数据挖掘中被广泛应用的算法。它能把数据分门别类,然后针对每种类别进行不同的处理。Hadoop提供了一种分布式的编程模式和存储架构,尤其擅长处理大数据的算法。本文正是以Hadoop为工具,对大数据环境下的多维混合型属性的聚类算法做了深入的研究。首先对Hadoop的原理和底层存储平台进行研究。基于Hadoop的自身特点和算法的特性,然后提出了基于Hadoop的数据的预处理软件架构,用于保证算法所用数据的准确性。在此之上提出了基于分布式Map/Reduce编程模型的“PK-prototypes算法”,用以处理大量多维混合型的数据。通过对算法的深入研究分析,研究出了一种针对PK-prototypes算法的改进算法称为“PK-prototypesBAW”算法。并通过对比实验,验证并行算法的有效性。对于算法效率的优化,从算法的不足和Hadoop平台的缺点,在算法的不同的环节给出具体可行的优化方案。其中包括:根据抽样选择算法来确定初始聚类中心文件、对Hadoop不擅长操作的小文件进行处理、在Map阶段整理数据减轻Reduce阶段的压力、采用高效的压缩算法减少数据的传递量以及改进节点之间的传输协议使其更适合于Hadoop分布式的环境下工作。随着电子商务的蓬勃发展,其产生的用户交易数据也是海量级别的。商家可以针对这些数据进行聚类分析,把具有不同购物习惯的顾客进行分类。然后,对每一类的顾客采取不同的推销手段,从而达到利益最大化。因此,“PK-prototypes算法”具有广阔的应用前景。
其他文献
IP Anycast作为一种新兴的网络服务和IPv6的新特性,具有广阔的应用前景.目前它处在研究的初期阶段,几乎没有被实现.该文的目标是研制一个基于IPv6的域内主机Anycast原型系统.
JPEG2000是一种新兴的基于小波技术的图像压缩标准[TM01,RJ02,IT00],由于其出色的压缩率,很快成为许多数字图像应用领域的首选方案.随着数字图像应用的日益广泛,图像压缩算法
随着信息科技的飞速发展,网络已经融入了人们的生产和生活,它对社会经济发展、信息文化的传播、交流和对政府政策管理等方面已经产生了深远的影响.目前Internet里的海量信息
SoC已经成为当今超大规模集成电路的发展趋势,它从整个系统的功能和性能出发,用软硬件结合的设计和验证方法,在一个芯片上实现复杂的功能.随着SoC的功能越来越复杂,验证在SoC
移动计算设备的供电系统均采用电池供电,电池电量和供电能力对移动计算系统性能和运行时间都有决定性作用.电池供电量与电池体积大小的发展在一段时间内是相对固定的.因此,如
在人脸识别过程中,人脸检测是人脸识别的前提和基础,人脸检测的结果对人脸识别的精度有直接的影响。人脸检测的主要工作是从静态图像或是视频序列中找出是否存在人脸,确定人
近年来,IP组播技术以其能够大大节省网络带宽和发送者资源而得到广泛应用,在视频传输、股市行情发布、新闻放送、软件更新、多方网络会议、网络游戏等应用领域,组播通信为其提供
该文首先介绍了遥感相关的一些概念,以及该文所用遥感图像来源及其特点.根据遥感图像自身的特点,我们选择了提取遥感图像中的图像轮廓和纹理特征进行多源遥感数据库的检索.在
网络安全依赖于两种技术。一是传统意义上的存取控制和授权,如存取控制表技术、口令验证技术等;二是利用密码技术实现对信息的加密、身份鉴别等。前者从理论和技术上是完全可以
当前,基于P2P路由算法构建面向Internet的大规模分布式存储系统正在成为一个研究热点.燕星2.0系统是由北京大学网络实验室研究开发的P2P分布式存储系统,它面向Internet提供文