基于信息扩散的预测建模技术在数据挖掘中的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:doraemon1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,谁掌握了信息,就掌握了机遇。在金融、商业、通信、军事、生物、媒体等领域存在大量的信息,如何从这些浩如烟海的数据中发现有用的知识,成为人们一直追求的目标。数据挖掘的诞生标志着人们开始能够发掘和利用知识,不会在庞大的数据面前束手无策。大量的数据经过诸如清洗、整理、分类、聚类、回归等数据挖掘操作之后,成为有效的信息提供载体,人们可以发现深层次的数据关联,提取和发现由于海量数据而受到隐藏的模式和模型。数据挖掘中的预测建模技术是一种有效手段,线性回归模型以及在其基础上发展起来的多元回归、神经网络等均成为人们分析数据,描述数据的重要工具。然而,线性回归模型由于其自身计算过程的约束,受到数据的粗差影响较大,结果不够稳定,需要探求新的解决方案。 数据说到底是一种信息,在目前人类的认识手段还有限的情况下,并不可能得到需要的所有样本,即样本具有非完备性,然而人们也并没有因此放弃对于客观世界的研究,提出了很多行之有效的方案来解决这一问题,模糊信息理论就是其中一种。在模糊信息论看来,每一个观测点不仅仅是一个有数值意义的观察值,而且是具备一定模糊信息的信息扩散点,向“周围”发散信息,同时也从“周围”接受信息,这就是所谓的信息扩散。这样,一组有限的观测向量成为一个蕴涵着很多模糊信息的信息群体。这种直接从原始数据驱动获得信息的估计方式就是信息扩散估计,它比起传统的参数估计方法有更广泛的应用,摆脱了对原始分布的假设,对数据分类和预测的把握更加准确。 由此,将信息扩散理论引入数据挖掘领域,能够更好的解决实际问题,成为人们决策参考时能够信任并使用的理论支撑和技术手段,从而以信息论的方法解决大量信息载体的问题。
其他文献
随着互联网的飞速发展和网络应用的广泛开展,人们对互联网服务提出了更高的要求,不仅要求网络服务具有高可伸缩性、高可用性、易管理性和高性价比,还要求提供QoS控制等对关键
开放的网络化应用和软件开发的面向服务的理念越来越得到大家的关注,这也必将基于导致Internet环境软件系统的主要形态、运行方式、生产方式和使用方式发生变化。网络化设计就
人脸识别是一项重要的生物识别技术,与指纹、声音等生物特征识别方法相比具有直接、友好、方便等优点,因此,被广泛应用于机场和其它重要场所的安检、金融交易等多种场合。 文
随着网络通信的迅猛发展,对信息安全的要求越来越高。而提高信息安全的关键因素之一是加强对密钥的管理。传统的密钥管理技术都或多或少地不能满足人们的更高要求,同时,Agent技
随着数据仓库技术和OLAP技术的发,人们提出了联机分析处理和数据挖掘技术集成的多维挖掘技术。多维数据挖掘能使得用户能够选择相关数据的任何部分,在不同的层次上分析数据。本
代数方法从“构造”的角度研究抽象数据类型的语义,并且已经在抽象数据类型、计算机语言的形式语义等领域有了广泛的应用。而代数的对偶概念—共代数,从上世纪90年代以来,才得到
带存储器P系统是由PaoloCAZZANIGA等人于2005年提出的最新类型,具备存储以往提交的输入及其结果的功能,这样在同样的输入被多次请求计算的场合下可以加快计算速度,所以带存储器P
在数字化,网络化,信息化的21世纪,人们办公和商务活动的电子化要求越来越高,电子商务和电子政务就在这样的潮流下显示了不可逆转的趋势,在发展电子商务和电子政务的过程中,人们最不
非负矩阵的分解(Non一negative Matrix Factorization,)简称NMF方法,这是一种新的降维方法,该方法在处理数据繁多时是一种很有效的方法,采用该方法分离出来的数据对事物本身具有
遗传算法(GeneticAlgorithms,GA)是一种借鉴生物界自然选择和自然遗传机制的随机优化搜索算法。由于它简单易行,尤其是其不需要专门的领域知识而仅用适应度函数作为问题的评价