数据挖掘中海量数据处理算法的研究与实现

被引量 : 0次 | 上传用户:programmelove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的数据中提取出有用的、有价值的信息或者人们所感兴趣的知识的一种处理过程。但是随着不断迅速发展的信息互联网和数据库技术,已经迫使海量数据的处理成为数据挖掘领域所要解决的一个重要课题。本文以“电信数据挖掘系统的设计与开发”的项目为研究背景,通过对海量数据处理技术的研究,提出了使用内存映射文件技术对海量数据进行初步处理的方法;通过对海量数据挖掘算法及粒计算理论知识的研究,本文提出了两种数据挖掘算法:一种是基于矩阵压缩的Apriroi算法(MC-Apriori),这种算法是在经典Apriori算法基础上的改进,把事务数据转化为0-1矩阵,并按照Apriori性质及其推论对矩阵进行反复压缩,进而得到各项频繁项集,此算法也在一定程度上减少了数据规模及其计算量;一种是基于粒计算的关联规则挖掘算法(Grc-AR),此算法是在MC-Apriori算法的基础上引入粒计算的思想,把海量数据集划分成若干个小数据集,然后对各个小数据集进行操作,并对结果进行整合,得到最终结果。本文以某市移动用户的通话记录为数据样本,分别实现了这两种算法,并对实验结果进行了分析与比较。实验结果证明这两种算法均没有失去算法的有效性,但在实际处理海量数据时,Grc-AR更适合处理海量数据集,算法的可伸缩性好。最后并从海量的电信数据集中,提取出了一些有价值的信息,给电信运营商提供了决策支持。
其他文献
翻译硕士是我国高校翻译教学中迅速发展的新专业,其培养模式值得学界深入探讨。本文以德国功能主义翻译目的论为依据,基于拓展后的理论框架设计调查问卷和访谈提纲,对全国11所开
在文字发明之前,人类曾经度过了漫长的图像传播时代。如今,在经历了文字阅读占主导地位的"读文时代"之后,一个全新的"读图时代"正扑面而来。以新闻出版为代表的内容产业领域
中学心理健康教育课程内容标准(简称内容标准),是深化心理健康教育课堂教学改革,实现初、高中心理健康教育教学有效衔接的必然要求。内容标准的制订以教育部颁布的《中小学心
由初三进入高一,是中学外语教学的一个转折点。如何做好初高中英语教学的衔接工作,一直是困扰高中英语教学问题的一大难题。探讨初高中英语衔接问题是为了让学生更好地适应高
本文以典型高速单体和三体无人艇为基础,根据一些实船的资料和相关经验公式并结合高速无人艇的特点,探讨了高速无人艇航行性能的综合优化设计。首先依次建立了高速单体无人艇快
汽车维修是高职汽车维修专业的最重要的课程之一。高职汽车维修专业重在实践与实训,将实践与理论相结合。为进一步开展高职院校的汽车维修专业实践教学:应建立先进性的实践培
针对卫星通信链路传输中对性能参数的分析存在系统误码率过大的问题,提出了一种卫星链路传播特性模型,并在传统正推法的基础上,运用一种新的链路预算方法——倒推法(Backward
阐述推进绿色照明的意义,并就有关技术问题作了研讨。
陕北地区低变质煤炭资源丰富,具有低灰、低硫、低磷、高挥发分、高发热量和高活性“三低三高”的特点,是低温干馏的理想原料。目前,内热式低温干馏方炉是低温干馏工艺的关键设备
酸气回注技术具体工艺过程是将需要处理的酸气加压,然后输送到处理井并注入到预先选定的储层。此文介绍了酸气回注的工艺流程,包括回注的地层的选择、脱水方法、增压方式、输