论文部分内容阅读
信息时代,谁掌握了信息,就掌握了机遇。在金融、商业、通信、军事、生物、媒体等领域存在大量的信息,如何从这些浩如烟海的数据中发现有用的知识,成为人们一直追求的目标。数据挖掘的诞生标志着人们开始能够发掘和利用知识,不会在庞大的数据面前束手无策。大量的数据经过诸如清洗、整理、分类、聚类、回归等数据挖掘操作之后,成为有效的信息提供载体,人们可以发现深层次的数据关联,提取和发现由于海量数据而受到隐藏的模式和模型。数据挖掘中的预测建模技术是一种有效手段,线性回归模型以及在其基础上发展起来的多元回归、神经网络等均成为人们分析数据,描述数据的重要工具。然而,线性回归模型由于其自身计算过程的约束,受到数据的粗差影响较大,结果不够稳定,需要探求新的解决方案。
数据说到底是一种信息,在目前人类的认识手段还有限的情况下,并不可能得到需要的所有样本,即样本具有非完备性,然而人们也并没有因此放弃对于客观世界的研究,提出了很多行之有效的方案来解决这一问题,模糊信息理论就是其中一种。在模糊信息论看来,每一个观测点不仅仅是一个有数值意义的观察值,而且是具备一定模糊信息的信息扩散点,向“周围”发散信息,同时也从“周围”接受信息,这就是所谓的信息扩散。这样,一组有限的观测向量成为一个蕴涵着很多模糊信息的信息群体。这种直接从原始数据驱动获得信息的估计方式就是信息扩散估计,它比起传统的参数估计方法有更广泛的应用,摆脱了对原始分布的假设,对数据分类和预测的把握更加准确。
由此,将信息扩散理论引入数据挖掘领域,能够更好的解决实际问题,成为人们决策参考时能够信任并使用的理论支撑和技术手段,从而以信息论的方法解决大量信息载体的问题。