论文部分内容阅读
随着互联网技术不断改革和创新,社会经济的不断发展与进步,大数据云计算技术在人们的工作生活中运用的越来越广泛。为了满足用户的需求,互联网公司通过大数据云计算技术充分掌握市场的动态发展信息,明确自身企业的发展目标,为用户提供更好的服务。本文主要研究在云计算环境下数据挖掘结合任务调度的模型。首先通过数据挖掘提取网页中有价值数据,然后利用文本分类方法整合同源数据,最后提出一种云计算框架下高效的调度算法来为用户提供信息。调度算法是本模型的核心,网页文本数据的提取是文本分类算法和任务调度算法的输入,文本分类则是后续调度算法的预处理步骤。本文研究内容如下:(1)提出一种数据挖掘和任务调度相结合模型,更加高效和及时为用户提供服务。(2)对云环境下文本的挖掘和分类,利用爬虫原理获取网页数据,利用Hadoop平台实现在云计算下数据分类的并行化处理。(3)提出一种云计算的调度算法。设计一种均衡因子模型,同时利用免疫算法的克隆算子,提出均衡克隆调度优先算法。