论文部分内容阅读
概念建模(ConceptualModeling)是需求工程领域开发的重要环节,也是软件工程最重要的前置工作。随着信息系统规模和结构日益庞大复杂,针对概念建模过程中的系列形式化问题,要求开发人员在充分理解功能需求和应用场景的基础上,能够正确的描述相关领域内的知识和规则建立概念模型。然而,信息系统概念建模并不是一项简单的工作:概念状态在语义层面、抽象层次、形式化过程之间不断地演化,使得最终的概念建模结果与最初的知识理解之间存在一定的差异。与此同时,信息重用和互操作需求的不断增加使得信息系统的规模、功能和逻辑复杂度不断提升,更是增加了开发人员的领域知识分析工作量和概念建模难度。因此,当前迫切需要高效自动化概念建模方法的支持,来帮助开发人员、领域专家乃至最终用户清晰的表达信息系统的抽象概念和领域知识。概念建模的作用是在信息系统实施前对现实世界进行抽象,是现实世界与信息系统开发之间相联系的桥梁。由于概念建模本身所具有的现实意义,国内外研究者开展了深入的研究与探索,提出了多种理论分析与概念建模方法。然而,现有方法在实践中还存在一定的不足,突出表现为:(1)缺乏在复杂环境下对大规模数据和不确定性问题的有效处理。现有方法在序关系(Order Relations)度量时较少考虑不确定因素的影响,因此度量结果会因过于严格而失去泛化能力。(2)缺乏对不一致性问题的有效处理。现有方法通常需要领域专家参与建模过程,但并无完整的交互迭代框架支持,由此产生的不一致性很难消除。(3)缺乏有效的形式化验证。现有方法过于依赖设计人员的领域知识,知识获取自动化程度较低,无法自动验证概念模型的有效性。另外,现有方法在实践中会因诸多不确定因素(如隐式信息、模糊信息)造成建模效果不佳。为了弥补这些不足、提高知识发现的有效性,本文针对上述问题进行了基于形式概念分析(Formal Concept Analysis,FCA)相关理论的概念建模方法研究,具体研究工作如下:1.提出基于概念格(ConceptLattice)的关系粒化(RelationGranulation)与代数结构,为概念建模过程中的知识约简提供理论支持。现实世界中的二元关系(Binary Relations)存在着更一般的二元关系(General Binary Relations)而不仅仅只是等价关系(EquivalenceRelations)、容差关系(ToleranceRelations)或序关系。对于这种情况,本文以适合分析和处理二元关系的概念格为理论基础,从子关系的角度提出了一种新的粗糙集(Rough Set Theory,RST)模型。在该模型中,一个一般的二元关系可以分解为几个子关系,可以作为关系粒(Granules)来研究代数结构,这一代数结构以概念格的形式组织所有的关系粒化结果。此外,通过引入粒计算(Granular Computing,GrC)来将复杂信息系统进一步转化为相对简单的计算过程,是概念格与RST、GrC融合的一种新尝试和探索,也为从关系粒度的角度来扩展FCA理论为概念建模提供理论支撑的代数结构。2.提出一种概念格与包含度(Inclusion Degree)的融合理论及其应用方法,在概念格与包含度的融合理论框架下定量分析不确定性序关系(Uncertain Ordered Relations),并将相关结果进一步应用到信息系统概念建模。融合理论的核心目的是突出序关系一定程度的确定性。从具体实现的角度来看,序关系的研究范围经历了一个扩张到收敛的过程。也就是说,某些序关系首先扩展到模糊关系或不确定关系,然后通过设置阈值参数使模糊或不确定关系可以收敛到一定程度的确定性。显然,通过适当拓宽序关系的研究范围,可以灵活地满足实际需要,也有助于提高知识获取模型的鲁棒性和泛化能力。此外,基于融合理论,这一方法也为有序信息系统中的代数结构(Algebraic Structure)、约简(Reduction)、核(Core)和依赖(Dependency)问题提供了解决方案。3.提出一种基于约束概念格(Constrained Lattices)维护概念模型一致性的方法。针对以FCA理论为基础的概念建模过程中知识表示存在差距的问题,提出一种整合专家知识到概念格结构中的形式化模型。首先,将一组属性依赖与概念格提供的一系列蕴涵对齐,对原始格进行修订。然后,通过使用外延投影(Extents Projection)建立约束格来提供变化轨迹。在此基础上,提出基于FCA约束格理论弥补这一差距的建模方法,以维护概念模型的一致性,该方法不仅提供了领域专家修订概念模型的途径,还保留了原始格和最终约束格之间的变化轨迹。通过这些变化,专家可以访问实践中的概念如何与数据自动发布的概念相关联。最后,结合示例对基于约束格维护概念模型一致性方法的有效性进行了验证。4.提出一种扩展FCA理论在概念建模实践中的应用框架,以结构化的数据集为例,通过FCA相关融合理论分析,有效发现和使用数据集中的知识完成概念建模。本文提出实践框架与以往的研究在下述几个方面有所不同。首先,虽然大多数研究集中在概念的相似度上,但本文提出了一种综合框架,为概念的合并过程提供了结构化和系统化的描述。其次,以FCA相关融合理论为基础,研究了如何解决隐含和模糊信息的问题。最后,本文将所提出的技术应用于数据集样本进行验证,并研究了所提出的方法如何有效地改善数据互操作性。本文所描述的方法为分散数据源的组织建模提供了一种有效的机制,并支持概念模型开发,能够更好地适应和尊重领域的基础知识结构。综上所述,本文提出了以FCA为相关理论基础的概念建模形式化方法,为提高信息系统概念建模的有效性和一致性、概念格与包含度融合理论等关键科学问题提供了一种新思路和新方法。