基于相关图的数据挖掘理论及应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dragon_3628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的研究经过十几年的迅速发展,已经取得巨大成就,相关技术正在被各应用领域的专家所瞩目。目前,数据挖掘研究及其应用己经渗透到多个学科及领域中,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。同时,数据挖掘不但受到众多学者的关注,而且很大程度上得到了政府、工业界的广泛支持。通过引进数据挖掘的能力,可以大大提高生产力,取得社会的更大进步。世界上许多国家和地区的政府及工业界都希望掌握数据挖掘技术,提升国家和企业的科技含量,并最终取得领先的地位。 当前,复杂类型数据的挖掘日益频繁,专家学者们已经开始关注这方面新的应用和理论研究,并试图利用无结构化数据挖掘方面的经验和方法论来帮助解决新问题。而本文则是致力于结构数据的挖掘与处理问题,主要使用基于图结构的数据表示模式。图论技术被广泛应用于科学研究、社会生产的许多领域。它通过抽象方法,将各种复杂的关系整合出来,把考察对象变成一张网络拓扑图,其中每个相关的对象可以是图中的节点,而对象之间的联系则可以看作图中的边。如此以来,对科学、社会等领域的研究分析,自然而然就转化为对网络结构的挖掘。因此,正是由于图论技术的灵活的实用性和广泛的应用性,对图结构数据挖掘的研究就成为目前数据挖掘领域的一个重要研究方向,而数据相关性的挖掘研究尤其成为图结构数据研究中的焦点问题。 但是现在对于图挖掘技术的研究还不够成熟,特别是在数据相关性挖掘中的应用还没有深入研究。然而,相关性研究在商业领域中的风险评估,尤其是在信贷方面中的应用非常重要,已有的研究成果中仅有一些开拓性的工作,研究不够深入。 本文针对目前基于图的数据挖掘与处理中存在的五个关键问题做了如下的工作: 1.为了提高图挖掘技术的数据相关性挖掘能力,提出了相关图概念,研究了基于相关图的全局相关和非线性相关的分析与发现技术,设计了相应的算法CGHCF和NLCD,用于复杂数据的全局相关性和非线性相关性的挖掘; 2.为提高规则推理和提取的有效性,提出了相关流图的概念,研究了基于相 关流图的数据约简和规则推理技术,建立了基于相关流图的规则推理网络 CFGRN; 3.为有效挖掘频繁模式,提出了相关二部图的概念,研究了相关二部图中的频繁子图挖掘问题,提出了一种基于相关二部图的频繁子图发现算法CBGFF和启发式邻集匹配算法HNMA;根据二部图所特有的结构特征设计了基于导出子图的频繁子图增量学习模型IGIFG; 4.为了加强基于图的概念学>习能力,提出了基于相关图的扩展归纳逻辑规划的概念以及项图的概念,研究了基于相关图的归纳逻辑规划的问题,提出了基于相关图的可驳倒式扩展逻辑规划技术,设计了基于相关图的扩展逻辑规 划算法(CEILP);提出了基于项图的合一(UA)算法。 5.构建了基于图的数据挖掘系统CGMS,该系统能够实现数据的图结构存储 形式转换,可以从复杂相关数据中发现全局相关关系以及非线性相关关系,而且能够有效地提取规则,用于实际的决策支持。结合银行业务数据进行风 险评估课题(广东省科技攻关项目2004A10202001和2005810101033),研究 结果表明本文提出的基于相关图挖掘技术的有效性和实用性。
其他文献
XML(eXtensible Markup Language)是一种广泛使用的标记语言,用来定义各种XML文档,应用于Web数据传输、数据集成、文档存储等场合。DOM(Document Object Model)是W3C组织定义
我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。本课题是研究和开发高层和大型建筑的计算机三维模型的快速生成系统,为建立消防档案提供三维的机制,促