【摘 要】
:
对分布式数据流的分析与挖掘正与日俱增地在众多领域变得十分重要,如网络流分析和金融交易分析等。在分布式环境中,将所有数据都传输到一个节点进行处理是不现实的;更加合理
论文部分内容阅读
对分布式数据流的分析与挖掘正与日俱增地在众多领域变得十分重要,如网络流分析和金融交易分析等。在分布式环境中,将所有数据都传输到一个节点进行处理是不现实的;更加合理的方法是各个局部节点从数据中提取的最具代表性的精华部分,进而基于这些精华部分整合学习成为全局模型。
本文分析了支持向量机(SVM)在分布式环境下进行模型表示和集成的利弊,支持向量的核心作用及其在模型集成时带来的问题和风险,以及在不同分布式结构下具体的实现方法。针对分布式环境下数据分析模型集成的问题和特点,基于支持向量机理论和支持向量数据描述(SVDD)算法,本文提出了一种基于支持向量机理论的支持向量数据描述外壳算法(SVDDS),构造的外壳根据数据的分布形态,仅包含支持向量以及向内部延伸一定厚度的区域,实现了无需修改支持向量机算法即可适用于分布式环境下的全局模型。
本算法在描述数据的外围轮廓的同时,通过控制系统的参数,保留轮廓以内的潜在支持向量,去除对未来的模型集成没有影响的数据,构成描述数据特性的有一定厚度的潜在支持向量的超球壳。它平衡了模型准确性与潜在支持向量数量,权衡了全局模型集成的风险与总体传输负载,达到了用尽量少的数据准确表达模型,从整体上降低了未来的模型集成的风险和总体传输负载的目的。
本算法适用于在众多典型分布式结构下进行模型集成。对典型情况的比较性实验表明,该算法能在较好保持全局精确度的同时,显著地降低总体传输负载。
其他文献
在电力系统中,许多功能都与时间密切相关,如果时钟不同步,系统时钟就会混乱,很多事情就会变得杂乱无章,严重的则导致整个电网瘫痪,因此电网系统中的时钟同步变得越来越重要,整个系统
安全组播是组播技术的研究热点之一,其核心就是组播密钥管理问题。组播密钥管理主要是为了解决安全组播中两个重要的难点—前向及后向安全,合法的组成员在退出组后不能再接收
如何在海量的XML数据中检索到人们需要的信息是当前学者研究的一个热点问题。结构连接是XML查询的核心操作,在对结构连接算法的改进方面有了大量的研究成果。为提高查询效率,
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别(Named Entity Reeognition, NER)的主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归
随着无线局域网的快速发展,它自身存在的安全性问题,也慢慢的引起了人们的关注。入侵检测系统作为信息安全的重要组成部分,已经成为当前网络安全领域的研究热点。尽管有线网络的
随着社会的信息化发展,人们可以通过网络获得大量的信息资源和服务,人类进入信息化社会,这使得社会的开发程度进一步加大,与之俱来的是信息安全问题,信息安全已成为人们在信
国际可信计算组织TCG(TrustedComputingGroup)推出了以可信平台模块TPM(TrustedPlatformModule)为核心的可信计算平台规范。TPM是一种具有密码功能、实现可信存储、防篡改的
基于核的学习算法是一种新兴的重要的分类技术,近年来己被广泛研究,并且成功应用于模式识别.图像处理等等相关领域。传统的核方法通常仅使用标准的核函数,如线性核和RBF核,因此
蛋白质的三维结构决定其生物功能,折叠模式是蛋白质空间拓扑的一种分类表达。自然界中的蛋白质结构约十多万种而折叠模式的总数约一千多种。因此,蛋白质折叠模式预测研究具有
近年来,由于XML具有良好的结构性和可扩展性,并且允许用户根据自己的需要定义自己的标记,XML逐渐成为网上数据表示和交换的主要格式。在Internet应用中,存在大量的XML文档,如