论文部分内容阅读
智能化数据挖掘系统的主要功能是根据用户提交的任务书,在算法库中查找相应的算法自动实现数据挖掘,将用户从繁重的算法设计、算法选择中解脱出来。2006年以来课题组对智能数据挖掘系统展开了相关研究,主要工作有:构建了系统架构;将案例推理技术引入到智能数据挖掘系统;研究了案例的组织和表示,利用模糊商空间进行案例组织;对数据挖掘在银行业的运用进行了详细的分析,构建了基于银行业的案例库,并通过实验验证了所采用案例组织和表示方法的优越性。存在的问题主要表现在:案例知识表示不完善,不能完整地表达出不同任务的关键特性;没有考虑案例推理核心技术-案例检索的优化处理,造成案例的匹配效果不佳;对案例改编和案例自学习的问题研究不充分。针对目前的问题,首先,本文对案例推理技术做了详细的分析,并且对案例检索技术的优化进行了研究,设计了一种结合了遗传算法和分层权重确立法的多维优化模型,从选择属性、确定权值,选择案例三方面对以最邻近检索策略为主的检索策略进行了优化处理,使得检索更具有目标性。其次,本文对案例库的表示进行了扩展,从问题描述、过程描述、目标类型、系统要求、用户评价五个方面分别对案例进行描述。第三,考虑到用户在某一段时间对于数据的关注有一定的规律性,本文建立了用户信息库,利用用户信息为案例检索提供反馈信息,构成一个反馈式的案例推理系统,从而减少了案例推理所带来的时间上的耗费。最后在案例改编上本文采用了在案例库中多加一个案例改编表,该表记录了案例曾经的修改经验。通过这种改编经验来改编案例。基于不同的算法对不同的数据类型的反应不同,所以改编主要是针对算法的参数进行修改。修改的时候也是采用改编记录和常规修改函数两种方式相结合。在案例学习上也就是案例库的更新上本文使用以用户的评价和使用率的平均值作为依据进行剔除和更新。在实验方面主要是做了两个验证,一个是关于多维优化算法的验证,选取基于遗传算法的单目标和两维优化经典模式代表,与本文的模式做比较,从搜索空间和案例推理结果上做了比较。证明了多维优化的优越性。另外,对本系统的整体表现做了评估,主要是取目前开源的比较好的机器学习工具WEKA作为对比对象。从时间和结果上进行了对比,得到了比较满意的结果。