论文部分内容阅读
短短的几年时间,数据挖掘风靡全球,成为 IT 业近年来非常热门和前沿的研究方向之一,由于数据挖掘融合了人工智能、统计学、数据库、机器学习等各个领域的理论与技术,使得不同学科领域的学者对 DM 的研究表现出了前所未有的热情和参与精神,在世纪交替的特殊时期,这是又一轮规模空前的学科大融合。 数据挖掘目的是在大量的数据中发现令人感兴趣的模式,用以认识规律,提高效率,预测未来,其核心技术具有很大的挑战性,由于数据的适时性和时间特征,诸如Web 挖掘、金融挖掘、电子商务和市场调查等不可避免的会面临序列数据的处理,其中以时间为序的又称为时间序列,因此序列数据挖掘就应运而生了,但和目前其它分支不一样的是这方面的研究对模型的依赖严重得多,而众所周知时间序列分析在统计中就以复杂和抽象著称,尤其是涉及到另一个挖掘中困难的课题:异常挖掘,并且还要考虑序列中的异常挖掘,即使在统计学中也是非常艰难的,至今并没有很好的解决方案。金融数据挖掘是另一个非常困难的方向,虽然金融数学提供了丰富的理论和方法,但很多方法太抽象,实证效果也并不理想,作为普及方法推广是不现实的,数据挖掘作为 IT 技术,简单快速是必不可少的,因此更多的从模型出发、以算法为基础,建立切实可行的序列数据挖掘技术和理论体系是本文的目的。 我们在第一章的绪论中除了介绍相关的概念、基础知识和国内外研究现状外,介绍了统计中非常实用的线性模型方法及在序列数据挖掘中的应用。 第二章主要研究了线性模型的参数估计方法,得到了很多非常深入的新结果。 第三章主要介绍了数据的可视化和序列数据的聚类研究、线性模式挖掘和异常挖掘,同时应用于证券数据的挖掘,取得了不错的实证效果。 第四章我们主要研究了序列数据挖掘的预测问题,同样在证券实证分析中获得有力的支持。 第五章针对实际更多出现的数据缺失深入研究了 EM 算法等数据修补技术和插值技术,结果非常令人满意,最后进一步研究了向前搜索算法,通过聚类的预处理,既节约时间又避免错误的发生,效果也比较理想。 序列数据挖掘的广博领域显然不是本研究所能穷尽的,我们在文末展望了该方向今后的发展和进一步有待研究的若干问题。