构造性并行覆盖算法的改进及其在服务推荐中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:radicafrank
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是非常热门的研究方向,很多研究者对其感兴趣并提出了诸如深度神经网络、决策树等多种优秀的学习方法,并将这些方法推广到数据挖掘、模式识别、自然语言处理等各个领域。其中,数据挖掘的应用非常广泛,尤其在当今大数据的时代背景下,商业组织和研究人员意识到大数据中所包含的巨大价值。因此,选择合适的数据挖掘方法处理大数据并从中获取有价值的信息对于研究者来说至关重要,而聚类分析方法就是非常符合这种应用场景的方法之一。聚类是数据挖掘中的经典方法,K-means聚类算法是数据挖掘领域的十大经典算法之一,但其聚类数目k值无法事先确定以及它的初始聚类中心的选择易受到异常点的干扰。中国学者基于神经网络的几何意义提出了覆盖算法,覆盖聚类算法采用覆盖的思想将特征比较相近的样本聚合在一起,它具有“盲”特性,不需要预先指定聚类的数目,也不需要手动选择初始聚类中心。但是传统的覆盖聚类算法的半径获取方法存在问题且并没有分析聚类结果,导致最终聚类结果不合理。本文主要对覆盖聚类算法与K-means算法及其改进算法进行了研究,并研究了改进的覆盖算法在大数据环境下服务推荐中的应用。主要的研究内容及创新如下:(1)提出了改进传统覆盖聚类算法中确定领域半径的新策略。每个数据点对于每个领域覆盖的半径贡献值是不同的,距离簇中心越远的数据点对于簇中心的贡献值较小,反之越近的数据点对于簇中心的贡献值较大。应基于每个数据点相对簇中心贡献值获取簇的半径,使得相似的数据更大概率聚在同一个簇中,不相似的数据更大概率聚在不同簇中;(2)基于商空间理论提出了分裂机制和聚合机制。将基于改进领域半径的覆盖聚类算法所得到的覆盖结果看作是一个预处理过程,采用分裂机制和聚合机制对初始聚类结果进行分析,基于商空间理论知识获得聚类数目,而不是主观地事先估计聚类的数目,解决了数据集聚类数目难以确定这一难题:(3)为了克服K-means算法及其经典的改进算法中存在的聚类数目以及初始聚类中心点难以确定的缺陷,提出了基于改进覆盖算法的K-means算法(C-K-means)。实验结果表明,与 K-means 算法、K-means++·算法、K-means||算法相比,提出的算法在精度和效率方面效果都更好;(4)以往一些算法在小规模数据集上的离线测试表现良好,但在实际大数据集上实施时并不奏效,因此算法要结合现实生活中的大数据情景。为适应大数据环境,在Spark云平台下实现了并行的改进覆盖聚类算法CA-QGS和C-K-means算法,它们都具有很好的可扩展性,可有效解决大规模数据聚类问题;(5)对C-K-means的应用进行了研究。将它应用在大数据环境下的服务推荐中,基于传统的服务推荐提出了一种新的推荐模式,分别对调用过不同服务的所有用户和不同用户调用的所有服务进行覆盖聚类,提出一种新的Top-k机制,基于聚类结果获得目标用户或服务的相似邻居,然后再利用覆盖信息预测目标用户对服务的QoS(Quality of Service)值,最后进行服务推荐。与目前应用于服务推荐中的其他方法相比,C-K-means算法的推荐精度和效率显著优于这些方法。
其他文献
让计算机具备情感语音交流能力一直是人机交互领域的研究难点和热点。在人类交流的过程中,语音信号既含有丰富的文本信息,也包括了说话人的情感特征。为了获得更富有情感的机器语音,针对机器合成的语音信号进行情感转换研究显得尤为重要。情感语音转换是一种研究将中性音转换为带有某类情感语音的技术,广泛使用于情感识别、医疗、军事等领域。本文主要针对情感语音转换中的特征和转换模型进行研究,主要的研究内容如下:首先,提
互联网技术的迅速发展和日益普及,造成电子文本信息的急速累积,且这些海量原始文本信息甚为冗杂。而文本自动分类作为处理和组织大规模电子文本数据的关键技术,可以在一定程
近年来,模块化多电平变流器(Modular multilevel converter,MMC)因其可拓展性强、谐波特性好、故障穿越能力强等优点,在高压直流输电、大功率电机拖动、电能质量治理等领域受
随着经济全球化步伐的加快,互联网的蓬勃发展给人们带来了各方面的便利。微博文本蕴含着与人息息相关的海量信息,通过对微博文本进行情感分析可以促进产品的改进、舆情的及时
进入21世纪,中国高等教育由“精英型教育”过渡到“大众化教育”阶段,高等教育从计划经济时代的义务教育加统筹分配转变到如今市场经济的供需双向选择阶段,高等教育国际化、
目的胚胎心脏发育和先心病的发生受多种遗传因素共同调节,TBX1(T-box factor1)基因、转化生长因子β(transforming growth factor-β,TGF-β)信号通路都已被证实是其中较为重
在计算机视觉和图像处理中,运动目标检测一直都是重要的研究方向,运动目标检测是目标获取、目标跟踪和目标行为分析的基础工作,运动目标检测使用范围十分广泛,比如在计算机视
香菇是一种担子菌纲伞形科植物,也是目前世界上第二大食用菌,早在一千多年前就被收录入《本草纲目》中。现代医学发现,香菇具有抗肿瘤、抗氧化、保护肝脏、调节血压、防化学
图作为一种表达对象与对象之间抽象关系的非线性数据结构,具有更加一般化的表达能力,在我们现实生活中扮演者重要的角色。近年来,随着互联网、云计算、物联网等技术的高速发展,数据增长的规模正在以前所未有的速度增加,“大数据”给各行各业带来了很大的机遇和挑战,同时图数据的规模也随着个性化推荐、信息检索、社交网络分析等应用的蓬勃发展变得越来越大。随着图数据规模的增大,人们发现庞大的图数据中蕴含着巨大的商业价值
美国布鲁克海文国家实验室的相对论重离子对撞机(RHIC)和欧洲核子中心的大型强子对撞机(LHC),近二十年先后开展了一系列的高能重离子碰撞实验。大量的实验数据和理论分析表明