论文部分内容阅读
针对不确定数据流聚类的特点,为改善数据流聚类的精确性,提出一种新的聚类算法——UDStream。此算法采用双时间框架,使用密度的方法为数据点聚类;采用时间窗口体现数据流的实时性的特征;引入概率阈值的概念,设置概率相似区间,更好的区分不同概率的数据集,提高聚类结果的准确性和同一聚类中数据的概率相似度;设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性;使用不同的缓冲区,使算法具有识别离群点,同时算法改进此前算法对初始聚类的选取方法,使聚类过程在开始时就具有一个较好的聚类样本。 实验结果表明,此算法在与其他算法的比较中,聚类结果的准确性更好,同时同一聚类中的数据具有更好的相似性,使聚类结果更具有价值。