论文部分内容阅读
摘要:大数据的核心是利用数据的价值,机器学习是利用数据挖掘价值的关键技术。大数据技术下的机器学习平台构建是以大数据技术为基础,突破一系列关键技术,构建基于大数据技术的机器学习平台,提供分布式计算能力,快速实现海量数据处理。通过对大数据技术和机器学习概念进行梳理,提出了大数据技术下的机器学习平台架构,对其进行了深入的分析和研究,希望该研究能为大数据技术与机器学习研究者提供参考和借鉴。
关键词:大数据技术;机器学习;平台构建
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)10-0157-03
开放科学(资源服務)标识码(OSID):
Research on the Construction of Machine Learning Platform under Big Data Technology
LONG Hu,LI Na
(Kaili University, Kaili 556011, China)
Abstract: The big data core is uses the data the value, the machine learning is uses the data mining value the key technologies.Under the big data technology machine learning platform construction is take the big data technology as a foundation, breaks through a series of key technologies, constructs based on the big data technology machine learning platform, provides the distributed computing ability, fast realization magnanimous data processing.Through carried on to the big data technology and the machine learning concept combs, proposed under the big data technology machine learning platform construction, has carried on the thorough analysis and the research to it, hoped this research could provides the reference and the model for the big data technology and the machine learning researcher.
Key words: Big data technology; Machine learning; Platform Building
大数据时代背景下, 随着大数据技术、云计算、物联网、机器学习、人工智能以及移动网络等新一代信息技术不断涌现,掀起了新一轮的技术革命浪潮,传统的机器学习的分类算法很难直接应用到大数据环境下,不同的分类算法面领着不同的挑战。研究大数据不仅仅是各种数据的采集与存储,更重要的是如何利用好大数据,通过分析和挖掘海量数据,发现其隐藏于数据背后的价值和有规律的知识,并服务于各个领域,大数据的分析挖掘技术为机器学习的发展和应用提供了广阔的空间。大数据技术下的机器学习研究已成为很多研究机构和专家学者的研究热点问题。国内外的著名企业如百度、腾讯、Google、Facebook、微软等专门对机器学习与大数据技术进行了深入研究,将大数据技术与机器学习推上了新一轮发展浪潮,让大数据技术与机器学习成了当前的研究热点。大数据技术下的机器学习的研究已成为一个重要的研究方向。
1大数据技术
大数据(big data),是指海量数据,既包括结构化、半结构化数据,还包括非结构化的数据,具有种类繁多的信息价值,无法用目前的主流软件工具,在一定的时间内采取、分析处理及管理的高速海量的信息资产[1]。全球最具权威的IT研究与顾问咨询公司Gartner对大数据给出了具体的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。当前,关于大数据的定义还未形成一个统一的表述,先后有多个权威机构以及专家学者等对大数据的定义进行了不同的表述,对于大数据定义的表述主要有麦肯锡咨询公司、国际数据公司(International Data Company,IDC)、Gartner、维基百科以及亚马逊的大数据科学家John Rauser等都对大数据给出了不同的定义。
大数据技术主要有六大关键与核心的技术,主要包括数据采集技术、数据存储技术、数据计算、数据挖掘和数据可视化技术以及数据安全与隐私保护技术。数据采集技术是数据处理的必备条件,需要有数据采集的手段,把信息收集上来,才能应用上层的数据处理技术,数据采集除了各类传感设备等硬件软件设施之外,主要涉及的是数据的采集转换以及加载过程,能对数据进行清洗、过滤、校验和转换等各种预处理,将有效的数据转换成适合的格式和类型。数据存储技术主要是数据经过采集和转换之后,需要存储归档,针对巨量的大数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还需要提供备份、安全、访问接口以及协议等机制。数据计算主要涵盖数据查询、数据统计、数据分析、数据预测、图谱处理等各项相关的技术;数据挖掘(Data Mining,DM)又称数据库中的知识发现,是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域,数据挖掘主要是从数据库中大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。数据可视化技术可将分析与处理的海量数据利用可视化软件通过图的形式呈现出来,常用的大数据可视化软件工具有TABLEAU和DATAWATCH以及大数据魔镜等,通过可视化可了解数据背后隐藏的有用信息。数据安全与隐私保护技术主要是大数据技术下数据的安全性和个人隐私安全保护技术等方面,通过构建数据安全保护体系与隐私数据保护技术体系可有效地保护数据安全与隐私。
关键词:大数据技术;机器学习;平台构建
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)10-0157-03
开放科学(资源服務)标识码(OSID):
Research on the Construction of Machine Learning Platform under Big Data Technology
LONG Hu,LI Na
(Kaili University, Kaili 556011, China)
Abstract: The big data core is uses the data the value, the machine learning is uses the data mining value the key technologies.Under the big data technology machine learning platform construction is take the big data technology as a foundation, breaks through a series of key technologies, constructs based on the big data technology machine learning platform, provides the distributed computing ability, fast realization magnanimous data processing.Through carried on to the big data technology and the machine learning concept combs, proposed under the big data technology machine learning platform construction, has carried on the thorough analysis and the research to it, hoped this research could provides the reference and the model for the big data technology and the machine learning researcher.
Key words: Big data technology; Machine learning; Platform Building
大数据时代背景下, 随着大数据技术、云计算、物联网、机器学习、人工智能以及移动网络等新一代信息技术不断涌现,掀起了新一轮的技术革命浪潮,传统的机器学习的分类算法很难直接应用到大数据环境下,不同的分类算法面领着不同的挑战。研究大数据不仅仅是各种数据的采集与存储,更重要的是如何利用好大数据,通过分析和挖掘海量数据,发现其隐藏于数据背后的价值和有规律的知识,并服务于各个领域,大数据的分析挖掘技术为机器学习的发展和应用提供了广阔的空间。大数据技术下的机器学习研究已成为很多研究机构和专家学者的研究热点问题。国内外的著名企业如百度、腾讯、Google、Facebook、微软等专门对机器学习与大数据技术进行了深入研究,将大数据技术与机器学习推上了新一轮发展浪潮,让大数据技术与机器学习成了当前的研究热点。大数据技术下的机器学习的研究已成为一个重要的研究方向。
1大数据技术
大数据(big data),是指海量数据,既包括结构化、半结构化数据,还包括非结构化的数据,具有种类繁多的信息价值,无法用目前的主流软件工具,在一定的时间内采取、分析处理及管理的高速海量的信息资产[1]。全球最具权威的IT研究与顾问咨询公司Gartner对大数据给出了具体的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。当前,关于大数据的定义还未形成一个统一的表述,先后有多个权威机构以及专家学者等对大数据的定义进行了不同的表述,对于大数据定义的表述主要有麦肯锡咨询公司、国际数据公司(International Data Company,IDC)、Gartner、维基百科以及亚马逊的大数据科学家John Rauser等都对大数据给出了不同的定义。
大数据技术主要有六大关键与核心的技术,主要包括数据采集技术、数据存储技术、数据计算、数据挖掘和数据可视化技术以及数据安全与隐私保护技术。数据采集技术是数据处理的必备条件,需要有数据采集的手段,把信息收集上来,才能应用上层的数据处理技术,数据采集除了各类传感设备等硬件软件设施之外,主要涉及的是数据的采集转换以及加载过程,能对数据进行清洗、过滤、校验和转换等各种预处理,将有效的数据转换成适合的格式和类型。数据存储技术主要是数据经过采集和转换之后,需要存储归档,针对巨量的大数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还需要提供备份、安全、访问接口以及协议等机制。数据计算主要涵盖数据查询、数据统计、数据分析、数据预测、图谱处理等各项相关的技术;数据挖掘(Data Mining,DM)又称数据库中的知识发现,是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域,数据挖掘主要是从数据库中大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。数据可视化技术可将分析与处理的海量数据利用可视化软件通过图的形式呈现出来,常用的大数据可视化软件工具有TABLEAU和DATAWATCH以及大数据魔镜等,通过可视化可了解数据背后隐藏的有用信息。数据安全与隐私保护技术主要是大数据技术下数据的安全性和个人隐私安全保护技术等方面,通过构建数据安全保护体系与隐私数据保护技术体系可有效地保护数据安全与隐私。