论文部分内容阅读
随着科学技术特别是信息技术的迅猛发展,越来越多的企业将他们的业务交由计算机处理和存储。各行各业积累数据的能力和速度达到了惊人的地步。因此在商业领域和科学研究领域都迫切要求发展这样一种能够从如此海量的数据中抽取出模式,找出数据变化的规律和数据之间的相互依存关系的技术。现在银行,零售业,等都已经开始利用这些前沿的技术和知识获取重要信息。不仅如此,利用数据挖掘,OLAP技术、DSS将企业报表系统和预警系统结合在一起,形成了当前比较流行的商务智能(Business Intelligence)软件。 本文在“起重机监测信息的数据挖掘与状态预测技术”这个项目的背景下,结合数据挖掘技术开发出专门挖掘桥吊监测数据的挖掘信息系统——QD-Minner。该系统挖掘的对象比较特殊,因为这些对象是安装在外高桥码头的桥吊上二十二个状态监测点所得到的监测数据。QD-Minner所挖掘的就是这些监测点之间的关联规则,这些关联规则反应在数据上的就是数据库中列与列之间的关系。 QD-Minner所使用到的挖掘方法主要基于K-Means和FP-Tree。对于K-Means算法,针对随机点的不确定性会影响运行效率的问题提出了一些改进;而对于FP-Tree算法,为提高读取数据的速度引进了位图技术: (1) 在实际的K—Means算法中,簇的数目k是一个不断改变的变量。因为人们往往不能一次就得到合适的划分,而是在实验中不断更新簇的数目以寻找最佳的划分。根据对K—Means划分的分析,我们可以看到新的划分与前一次在k值变化不大的情况下的划分有相似性,根据该相似性,提出了基于前一次划分的BLK-Means算法,该算法避免了随机选择质点的盲目性,利用前一次得到的划分结果计算出较为合理的新的质点的分布,减少了迭代的次数,从而降低了运行时间。 (2) FP-Tree算法在不产生候选项集方面较Apriori算法已有很大改进。本文从数据读取方面入手,结合位图的优良特性,提出了BMFP算法。该算法主要是将数据一次性的读取并投影为位图矩阵,使得整个挖掘过程只需读取一次数据库即可。这在一定程度上提高了数据读取方面的效率。