桥吊监测数据挖掘系统(QD-Minner)的研究与实现

来源 :上海海事大学 | 被引量 : 1次 | 上传用户:shylockbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术特别是信息技术的迅猛发展,越来越多的企业将他们的业务交由计算机处理和存储。各行各业积累数据的能力和速度达到了惊人的地步。因此在商业领域和科学研究领域都迫切要求发展这样一种能够从如此海量的数据中抽取出模式,找出数据变化的规律和数据之间的相互依存关系的技术。现在银行,零售业,等都已经开始利用这些前沿的技术和知识获取重要信息。不仅如此,利用数据挖掘,OLAP技术、DSS将企业报表系统和预警系统结合在一起,形成了当前比较流行的商务智能(Business Intelligence)软件。 本文在“起重机监测信息的数据挖掘与状态预测技术”这个项目的背景下,结合数据挖掘技术开发出专门挖掘桥吊监测数据的挖掘信息系统——QD-Minner。该系统挖掘的对象比较特殊,因为这些对象是安装在外高桥码头的桥吊上二十二个状态监测点所得到的监测数据。QD-Minner所挖掘的就是这些监测点之间的关联规则,这些关联规则反应在数据上的就是数据库中列与列之间的关系。 QD-Minner所使用到的挖掘方法主要基于K-Means和FP-Tree。对于K-Means算法,针对随机点的不确定性会影响运行效率的问题提出了一些改进;而对于FP-Tree算法,为提高读取数据的速度引进了位图技术: (1) 在实际的K—Means算法中,簇的数目k是一个不断改变的变量。因为人们往往不能一次就得到合适的划分,而是在实验中不断更新簇的数目以寻找最佳的划分。根据对K—Means划分的分析,我们可以看到新的划分与前一次在k值变化不大的情况下的划分有相似性,根据该相似性,提出了基于前一次划分的BLK-Means算法,该算法避免了随机选择质点的盲目性,利用前一次得到的划分结果计算出较为合理的新的质点的分布,减少了迭代的次数,从而降低了运行时间。 (2) FP-Tree算法在不产生候选项集方面较Apriori算法已有很大改进。本文从数据读取方面入手,结合位图的优良特性,提出了BMFP算法。该算法主要是将数据一次性的读取并投影为位图矩阵,使得整个挖掘过程只需读取一次数据库即可。这在一定程度上提高了数据读取方面的效率。
其他文献
本文主要研究中文词性标注中异构数据问题。中文分词和词性标注是中文自然语言处理的基础任务,句法分析和语义分析建立在这些基础任务之上,大量的系统也依赖于这些基础任务的
随着医学、生物技术、宽带网络、地理信息等的不断发展,支持多维数据管理的数据库系统的研究正在逐步深入。多维索引方法就是对多维空间中的特征向量进行索引的方法。根据数
在大数据时代,从互联网中获取有用信息、提炼相关知识的难度越来越大。尽管现有的搜索引擎能够检索几乎全部的网页,但它们对信息的整合与再现去口难以令人满意。具体到某个行业
联机分析处理是创建多维信息系统的重要技术,它使得分析人员能够从多角度对数据进行快速、一致、交互的存取,从而发现数据之间的内在联系和其中包含的规律,并为决策者提供决策支
随着数字电视机顶盒的迅速普及,对电视节目的录制需求日益增加。本论文介绍了将节目录制到计算机硬盘中的高速数据传输系统的设计与实现。以Philps公司的ISP1581设备接口芯片
彩铃业务是“个性化多彩回铃音业务”(Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务有很
近年来,盲信号处理(盲源分离、盲均衡、盲系统辨识、盲反卷积)方法的研究已经成为信号处理、神经网络等领域一个引人注目的热点问题.盲信号处理方法一经提出,就在信号处理领
二十一世纪是生物信息科学繁荣的世纪。试验是生物信息获取的途径之一,随着生物技术的发展,各种生物试验规模越来越庞大,将多人试验生成大量的数据统一管理和综合分析,已成为当今
随着现代教育改革的不断推进和计算机网络技术的不断发展,各种网络教学系统也不断涌现。本文分析了目前的网络教学系统的现状和不足,在“双主模式”教学理论指导下,给出了一
移动计算环境下,需将组件对象迁移到被访问数据所在的服务器,即数据访问本地化,避免大量数据在网络上传输,减少网络拥塞。移动Agent具有分布式的特点,移动组件对象迁移计算本质是