论文部分内容阅读
近年来,随着大量特定的应用,在许多应用领域出现了海量、高速和动态的数据,如商业交易分析、传感器网络、入侵检测、金融信息监控、工业过程控制、在线拍卖以及事务日志等。在这些应用中,数据都以流的形式出现,这就为数据的分析与处理提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质就是对数据流的管理和分析。所谓数据流是指连续的、输入速率随时间变化的、有序项的序列。数据流上的查询通常连续运行,当新数据到达时增量式地返回结果,即所谓的长时间运行的、连续的、持久的查询。数据流及其相关技术已经成为当前数据处理领域的研究热点之一,管理和分析这些连续数据流为传统的数据库领域带来许多新的机会和挑战。
典型的数据流管理与分析包括数据流采集与预处理、数据的特征抽取、相关性检测或预测与分类等复杂的分析操作。本文针对上述中数据的预处理、数据特征抽取、分类等研究,主要工作及取得的创新性成果概述如下:
(1)在数据流的预处理方面,针对数据冗余,数据的不平衡给分类结果造成结果下降的问题,作了认真的研究,根据实际情况,选择数据平衡方法。
(2)在流数据的特征提取过程中,采用核主成分分析方法在高维空间中进行特征提取,并针对传统参数选择算法无法在短时间内找到最优值,容易陷入局部最小等缺陷,提出了参数改进的核主成分分析方法,将该方法与BP神经网络相结合进行分类。
(3)作为改进后KPCA与BP算法方法相结合的应用,设计了基于网络数据流类型的分类实验。通过未平衡数据实验结果、未优化参数实验结果、平衡后参数优化算法得到实验结果以及Naive Bayes算法结果之间的互相比较表明,该方法不仅大大节约了分类的时间效率、空间效率,还大幅度提高了分类的准确率。
(4)由于代理的隐蔽性,安全性等一系列的优点,为网络犯罪提供了一定的条件,同时也增加了查案难度,降低了破案效率。在文章中,将该算法应用到网络代理识别当中,用于预防当代网络犯罪,并在侦破网络犯罪的过程中,提供一定的参考,提高办案效率。