论文部分内容阅读
各个行业部门积累了大量业务数据,迫切需要将这些数据转换成有用的信息和知识,数据挖掘(Data Mining, DM)引起信息产业界的极大关注。应用数据挖掘技术去解决各类实际问题,数据挖掘模型的选择与设计是主要的环节,也是能否有效处理应用问题的关键。传统的数据挖掘模型设计依赖建模人员的专业知识,在分析应用领域业务特征的基础上,通过重复的数据探索和算法测试建立挖掘模型,大大降低了工作效率与模型准确程度。随着新技术的出现,模型设计人员可能忽略一些重要的挖掘方法及有助于知识发现的算法技术。针对数据挖掘人工建模效率低、知识复用困难等问题,本文研究数据挖掘应用特征、技术特征及业务数据特征,探讨数据挖掘模型的自动建模方法,设计数据挖掘模型的评价体系;在数据挖掘自动建模方法研究的基础上,结合MAS(Multi-Agent System)技术,建立基于MAS的数据挖掘模型自动选择架构,并且应用于油田开发领域。首先,通过引入挖掘模型自动选择方法所涉及的建模概念,明确特征、框架、目标、活动、方法、实体的基本意义,开发了数据挖掘模型选择通用技术。完成数据特征、业务特征、数据挖掘技术特征的具体抽象与定义,以符号的形式建立特征系统;基于节点模式,结合目标分析、活动分析、方法设计三个方面研究数据挖掘模型自动选择框架。以数据挖掘模型选择及设计为总体目标,将挖掘行为抽象为数据预处理、初步模型设计、模型调整、模型评估、知识表示五个基本活动。数据挖掘模型选择框架规范了数据挖掘模型自动设计各个阶段的目标及活动,组织挖掘业务与挖掘技术特征的具体逻辑关系,框架的设计基于目标、活动、方法等基本概念,利用节点表达挖掘过程中不同场景下需要的期望、响应及措施,表达挖掘模型选择不同阶段、不同层面的模型设计活动。为了完成可行数据挖掘模型集合求解任务,设计了基于DMMS_F (Data Mining Model Selection based on Feature, DMMS_F)及DMMS_E (Data Mining Model Selection based on Experience, DMMS_E)的求解方法。其次,设计数据挖掘模型评价体系结构,研究从可行数据挖掘模型集合中选择相对适用的挖掘模型评估方法,进行挖掘模型评价目标建模,完成挖掘模型自动选择机制中模型评价目标的规范描述;探讨数据挖掘模型的综合评价方法,包括评价框架和评价因子的设计。兼顾主观因素与客观因素对挖掘模型评价的影响,研究基于层次的评价框架,采用可调整的方法设计评价因子的层次位置及权重,给出数据挖掘模型评价体系,设计挖掘模型质量的评价方法。随后,将MAS技术引入数据挖掘模型自动选择方法的研究,建立基于MAS的DMMAS (Data Mining Model Auto Selection)模型框架;提出Agent集群概念与设计,通过外交角色、管理角色及劳务角色的引入实现Agent集群在挖掘模型选择设计过程的协作与交互;研究数据挖掘模型选择支持环境,分离数据挖掘模型设计方案的推理与运行,构建一个能够在知识合理组织基础上实现可能有效数据挖掘方案选择与配置的设计平台;就Agent技术实现而言,探讨Agent体系结构的设计及Agent协作模型的设计;在逻辑环组织结构的基础上,设计Agent动态管理平台,实现Agent的动态管理,主要包括Agent动态管理平台环形组织结构和动态管理平台对于Agent的管理方法;在模型研究的基础上,从系统开发角度分析基于MAS的DMMAS系统设计。最后,在油田开发生产领域探讨了基于MAS的DMMAS应用,设计石油测井岩性识别挖掘模型选择框架及压裂措施选井系统,并从运行和应用角度评价其质量。在挖掘模型的设计中,应用数据挖掘模型通用选择建模的特征符合系统,并且给出具体的模型选择流程与结果,从开发角度展示了业务定义、自动数据选择、挖掘模型设计、模型比较等数据挖掘模型自动选择的实现,完成基于MAS的DMMAS模型的实例化。