大数据技术下的机器学习平台构建研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:sosolinkweixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:大数据的核心是利用数据的价值,机器学习是利用数据挖掘价值的关键技术。大数据技术下的机器学习平台构建是以大数据技术为基础,突破一系列关键技术,构建基于大数据技术的机器学习平台,提供分布式计算能力,快速实现海量数据处理。通过对大数据技术和机器学习概念进行梳理,提出了大数据技术下的机器学习平台架构,对其进行了深入的分析和研究,希望该研究能为大数据技术与机器学习研究者提供参考和借鉴。
  关键词:大数据技术;机器学习;平台构建
  中图分类号:TP393 文献标识码:A
  文章编号:1009-3044(2019)10-0157-03
  开放科学(资源服務)标识码(OSID):
  Research on the Construction of Machine Learning Platform under Big Data Technology
  LONG Hu,LI Na
  (Kaili University, Kaili 556011, China)
  Abstract: The big data core is uses the data the value, the machine learning is uses the data mining value the key technologies.Under the big data technology machine learning platform construction is take the big data technology as a foundation, breaks through a series of key technologies, constructs based on the big data technology machine learning platform, provides the distributed computing ability, fast realization magnanimous data processing.Through carried on to the big data technology and the machine learning concept combs, proposed under the big data technology machine learning platform construction, has carried on the thorough analysis and the research to it, hoped this research could provides the reference and the model for the big data technology and the machine learning researcher.
  Key words: Big data technology; Machine learning; Platform Building
  大数据时代背景下, 随着大数据技术、云计算、物联网、机器学习、人工智能以及移动网络等新一代信息技术不断涌现,掀起了新一轮的技术革命浪潮,传统的机器学习的分类算法很难直接应用到大数据环境下,不同的分类算法面领着不同的挑战。研究大数据不仅仅是各种数据的采集与存储,更重要的是如何利用好大数据,通过分析和挖掘海量数据,发现其隐藏于数据背后的价值和有规律的知识,并服务于各个领域,大数据的分析挖掘技术为机器学习的发展和应用提供了广阔的空间。大数据技术下的机器学习研究已成为很多研究机构和专家学者的研究热点问题。国内外的著名企业如百度、腾讯、Google、Facebook、微软等专门对机器学习与大数据技术进行了深入研究,将大数据技术与机器学习推上了新一轮发展浪潮,让大数据技术与机器学习成了当前的研究热点。大数据技术下的机器学习的研究已成为一个重要的研究方向。
  1大数据技术
  大数据(big data),是指海量数据,既包括结构化、半结构化数据,还包括非结构化的数据,具有种类繁多的信息价值,无法用目前的主流软件工具,在一定的时间内采取、分析处理及管理的高速海量的信息资产[1]。全球最具权威的IT研究与顾问咨询公司Gartner对大数据给出了具体的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。当前,关于大数据的定义还未形成一个统一的表述,先后有多个权威机构以及专家学者等对大数据的定义进行了不同的表述,对于大数据定义的表述主要有麦肯锡咨询公司、国际数据公司(International Data Company,IDC)、Gartner、维基百科以及亚马逊的大数据科学家John Rauser等都对大数据给出了不同的定义。
  大数据技术主要有六大关键与核心的技术,主要包括数据采集技术、数据存储技术、数据计算、数据挖掘和数据可视化技术以及数据安全与隐私保护技术。数据采集技术是数据处理的必备条件,需要有数据采集的手段,把信息收集上来,才能应用上层的数据处理技术,数据采集除了各类传感设备等硬件软件设施之外,主要涉及的是数据的采集转换以及加载过程,能对数据进行清洗、过滤、校验和转换等各种预处理,将有效的数据转换成适合的格式和类型。数据存储技术主要是数据经过采集和转换之后,需要存储归档,针对巨量的大数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还需要提供备份、安全、访问接口以及协议等机制。数据计算主要涵盖数据查询、数据统计、数据分析、数据预测、图谱处理等各项相关的技术;数据挖掘(Data Mining,DM)又称数据库中的知识发现,是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域,数据挖掘主要是从数据库中大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。数据可视化技术可将分析与处理的海量数据利用可视化软件通过图的形式呈现出来,常用的大数据可视化软件工具有TABLEAU和DATAWATCH以及大数据魔镜等,通过可视化可了解数据背后隐藏的有用信息。数据安全与隐私保护技术主要是大数据技术下数据的安全性和个人隐私安全保护技术等方面,通过构建数据安全保护体系与隐私数据保护技术体系可有效地保护数据安全与隐私。
其他文献
非结构网格因其在处理外形方面所具有的特殊优越性而倍受关注.在结构/非结构网格中做了粘性流动的数值优化计算,优化计算包括单目标和双目标气动优化,以及反设计计算,即从初
研究了经过稀土、Ti变质处理和固溶自然时效处理的ZA27合金的阻尼特性,探讨了其阻尼机理,分析了变质处理及固溶自然时效处理对提高合金阻尼性能的作用.与铸态合金比较,经过变
文章分析了SPOC视域下课程协作学习的支撑理论及基于SPOC进行有效混合式教学设计的迫切性,从学习者特征、协作学习任务及小组的确立、协作学习活动流程的确定等方面对'An
结合某1000MW火电机组增压风机RB试验,通过对RB逻辑和试验过程参数曲线变化的详细分析,以考察机组RB逻辑的静态和动态性能,并对试验中出现的问题提出了具体的解决方案。
摘要:上好第一堂课是整个教学活动的良好开端,对第一堂课进行优化设计后,让学生认可自我,激发学生的学习兴趣,同时明确课程的学习目标、学习方法、考核要求,能更好地配合教师开展好教学活动,取得最佳的教学效果。  关键词:第一堂课;认可自我;学习兴趣;考核方法  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2019)18-0107-02  1 前言  C语言程序设计是计算机类各
针对复杂环境下人脸识别对算法速度、准确性和抗人脸姿态干扰的特别要求进行研究,采用肤色分割与Adaboost相结合的方式进行人脸检测。
摘要:为推广和传承将西安本土传统文化,介绍西安饮食文化、旅游景点以及传承至今的民俗风情,设计并实现了基于微信平台的传古论今公众号。通过该公众号这种新颖的宣传推广方式,为用户了解西安传统文化提供了便捷渠道,也为传统文化爱好者提供了交流平台,推进了优秀传统文化的传承。  关键词:传统文化;微信公众号;平台  中图分类号:TP311 文献标识码:A   文章编号:1009-3044(2019)15