论文部分内容阅读
可视化数据挖掘是数据挖掘和可视化技术的有机结合,这种结合打破了传统数据挖掘过程封闭性的特点,使得在数据挖掘过程中引入并发挥人的领域知识、形象思维能力以及控制挖掘的进程和方向成为可能。关联规则是当前应用范围最广的数据挖掘工具之一。关联规则挖掘的目标是发现大型事务数据库中项集之间有趣的规则,而传统的支持度——置信度框架的关联规则挖掘结果往往不能突出用户感兴趣的规则,其原因很大程度上在于不能发挥用户的领域知识。为此,本文一方面研究了关联规则的兴趣度,提出客观兴趣度+主观兴趣度的综合兴趣度的评测方法过滤掉用户可能不感兴趣的规则;另外一方面研究了关联规则中的一个重要概念——频繁项集的可视化途径,设计了一个体现Focus+Context信息展示理念的频繁项集可视化方案;最后在此基础上提出了一个交互式可视化的关联规则挖掘模型,揭开挖掘过程封闭的黑盒,使用户能够灵活地调节参数、控制进程、人工剪枝和标注兴趣。这种交互式可视化的技术一方面利用直观的可视化视图提供可靠、简明的信息支持;另一方面提供了丰富的交互手段,使得用户有效地参与到挖掘过程中,发挥其领域知识、体现其挖掘意图。为了验证上述模型的有效性,本论文在开放式通用数据挖掘平台MFDM(多功能数据挖掘器)的架构上,设计实现了一个交互可视化的关联规则挖掘子系统(ivAssociation)。实践证明,在关联规则挖掘的过程中引入交互式和可视化技术对于用户发现有趣的规则是有益的。