论文部分内容阅读
在新型的铝电解网络监控系统中,需要对大量的监控数据构建数据仓库,为此,针对其重复记录的数据预处理问题进行了研究.在属性集的基础上,提出属性重复量、记录重复量等定义,并给出重复记录辨识的一般算法IRA及其推广算法GIRA;对重复记录集中的噪音处理,提出一种基于距离的噪音识别算法INA;以实例说明了算法的具体实现过程.