论文部分内容阅读
近年来,随着数字化技术的快速发展,数据量以惊人的趋势迅猛增长,数据显现出多样化的改变,网络技术的日新月异也使得原本相隔万里的数据关联越来越紧密。传统的数据管理技术在过去的几十年中为数据管理做出了极大的贡献,但由于数据新特点的出现,使得传统的数据管理技术在面对日益复杂多变的数据时显得捉襟见肘。在这种情况下,人们试图寻求一种全新的数据管理技术以满足日渐丰富的数据管理需求——数据空间(dataspace)。数据空间是一个新兴的研究领域,许多关键技术还有待于深入研究。本文着重研究了数据空间中的数据集成若干关键问题。数据集成是为了解决异构数据、分布式数据的管理与共享而提出的,数据空间在本质上也是为了解决这个问题,但集成对象、集成方法等与传统数据集成技术有很大区别。数据空间的数据集成根据包装器提取数据源的数据信息。首先,需要将数据信息与数据空间的主体进行相关度评估,通过相关度决定是否将该数据信息存储到数据空间中;其次,由于数据空间不仅存储数据信息,还存储数据间的关系信息,因此数据空间集成需要对相关度较高的数据信息进行关联关系的发现和提取;最后,通过匹配数据空间的模式摘要确定数据所属的模式,然后将满足相关度的数据信息及其关系信息存储到数据空间中。因此,数据空间中数据集成的关键问题具体有相关度评估、数据关系发现和模式摘要的建立等。由于人的因素对数据空间起到了举足轻重的作用,所以在这三个数据空间集成的研究问题中加入人为因素的存在,会使得本文的研究更具实际意义。根据以上分析,本文对下列几个方面的工作进行了深入的研究:1)提出了基于操作行为的相关度算法。首先,本文对使用者操作行为的采集进行了深入的研究,通过分析使用者的操作行为,提出了操作行为采集算法用于采集使用者的操作行为信息,并通过Vertical模型将操作行为信息形成信息集;其次,研究了核心词集的提取,给出了操作行为间关联程度的评价方法及访问信息间关联程度的评价方法,通过将操作行为的关联、访问信息的关联及核心词频率进行结合,提出了基于CTFS的核心词权重评价方法用于提取核心词集;再次,在提取核心词集研究的基础上,提出了基于路径长度、发生频度及语义内容的PFC数据相关度算法;最后,在PFC算法的基础上,本文还给出了数据质量的评价算法,用于数据空间的查询排序等服务。实验对核心词的提取、数据相关度及数据质量进行了检验分析,实验结果证明,本文提出的算法具有很强的实用性及有效性。2)提出了基于主体特征的关系发现方法。数据空间中数据的关联分为显性关联和隐性关联,本文对显性关联的发现进行了研究,并通过在显性关联的基础上引入主体特征研究了隐性关联的发现。在显性关联研究部分,首先,通过5-ary对数据原子进行了描述,给出了数据原子属性重要程度的度量方法用于提取重要的属性作为核心词;其次,提出了CWD模型,并定义了具有同一核心词的数据原子集作为提取数据原子关联的数据集;最后,定义了群体类别及其关联,并结合具有同一核心词的数据原子集给出了基于数据原子集、群体类别及群体类别关联(DCR)的显性关联发现方法。在隐性关联研究部分,本文给出了基于主体特征的支持度和可信度的进一步定义,使支持度和可信度被主体特征所影响;然后,在显性关联的基础上,通过结合基于主体特征的支持度和可信度生成的频繁项集,给出了数据原子间隐性关联的发现方法。实验部分验证了属性的变化、群体类别关联的变化及基于主体特征的频繁项集对数据原子关联的影响。3)提出了一种基于信息差异的数据空间模式摘要提取方法,该方法可帮助用户快速、准确地了解数据空间的结构。首先,本文提出使用PageRank网页排序算法计算节点的重要性,并在分析了模式节点在模式图中的连通性以及在数据图中的分布频度对节点重要性影响的基础上,提出了选取首要节点的方法;其次,通过对节点产生的信息改变量差异ICD进行计算和分析,提出了基于信息差异的偏好值,该偏好值可用于提取模式摘要的候选节点集;再次,通过分析数据空间模式分块的特点,将模式分块与社团构建结合起来,使用基于边介数的模式分块算法SPIP算法,对模式图中的节点进行分块,并使用模块度函数来度量分块的质量;最后,给出了完整的模式摘要提取流程。实验首先比较了本文的分块算法与经典的贪婪分块算法,证明了本文提出的方法在效率及准确度上均优于贪婪分块算法;实验的另一部分比较了不使用模式摘要与使用模式摘要的三种情况下的查询效率,结果证明,使用模式摘要可提高查询效率,减少查询消耗。综上所述,本文对数据空间集成中数据相关度、关联关系发现及模式摘要提取进行了深入的研究。对于数据与主体的相关度,本文通过对使用者操作行为的分析研究给出了数据的相关度算法PFC算法;对于关系发现,本文给出了基于DCR的显性关联发现方法,并通过分析数据空间的主体特征,给出了基于主体特征的关联发现方法;对于模式摘要,本文针对数据空间模式松散、主体及数据均为动态变化,难以进行模式匹配的特点,提出了基于信息差异的模式摘要提取方法,提高了数据空间与数据信息的匹配能力,并为准确定位用户需求及查询等服务提供了保证。