论文部分内容阅读
随着数据管理技术的发展和所呈现出的新特点,针对数据管理应用需求的发展情况和现有传统数据库技术、数据集成系统的不足,数据库学者提出了一种新的信息管理抽象方法--数据空间。数据空间基于pay-as-you-go的思想进行集成,具有异构性、演化性和无统一模式等特性。目前,数据空间相关技术的研究正方兴未艾,受到工业界、学术界的广泛关注,但是在基于语义的实体搜索方面仍存在许多问题有待研究和解决。例如,缺少开放的数据模型来描述数据空间中的异构实体及其丰富的关联关系;由于缺少对实体的语义关联关系挖掘的有效方法而使得对基于实体关联关系的挖掘任务和相关应用的支持能力相对薄弱;缺少针对数据空间中实体演化特性的有效的实体识别技术而不能对数据空间中的数据质量进行有效地管理;缺乏对用户的关键字查询意图的理解阻碍基于语义的实体搜索的实现。为了打破数据空间中异构资源间的语义限制,最大限度的利用数据空间中的各种数据资源,对于数据空间中基于语义的实体搜索相关技术的研究不但具有重要的理论意义而且具有很高的实际应用价值。为了更好地支持和提供数据空间中基于语义的实体搜索服务,针对上述问题,本文对数据空间中基于语义的实体搜索的若干关键技术展开研究,包括:数据空间中以实体为中心的数据模型、基于聚类的实体关联关系挖掘算法、基于时间的集合式实体识别算法和基于关联关系的关键字查询意图消歧算法。本文的主要工作包括以下几点:(1)数据空间中以实体为中心(entity-centric)的数据模型。针对数据空间中实体的异构性、实体间存在着丰富的语义关联关系,提出了一种以实体为数据单位、分层的图数据模型lgDM,由实体关联数据图GD和实体关联模式图Gs组成。lgDM能够描述异构的实体类、实体及属性值,并能够描述实体类间、实体间丰富、复杂的关联关系。研究了对图模型lgDM的权重设置方法、建立索引的方法和模型所具有的查询能力。实验结果表明所提出的数据模型lgDM在描述丰富语义关联关系方面的有效性。(2)数据空间中基于聚类的实体关联关系挖掘算法。提出了四阶段的实体关联关系构建模型,并且在实体关联关系构建的整个生命周期中引入了关联关系约束验证来确保关联关系的正确性。提出了由实体聚类、候选实体对的过滤、关联关系归纳和推理、关联强度量化四步骤组成的基于聚类的实体关联关系挖掘算法CFRQ4A,用较少的手工来逐步地发现实体关联关系。实验结果表明所提出的CFRQ4A算法的准确性和有效性。(3)数据空间中基于时间的集合式实体识别(collective ER)算法。提出了包括预处理、blocking、表象聚类和时间约束检查的四步骤的集合式实体识别算法T-CER,解决了数据空间中具有时间信息的集合式实体识别问题。针对数据空间中实体的随时间演化的特性,在表象聚类步骤提出基于演化的实体识别聚类算法TE-Clustering,在相似度度量方法中引入属性演化系数和关系演化系数来捕捉时间演化对相似度的影响。并且给出基于识别顺序依赖图Gdepend来解决集合式实体识别的识别顺序问题的方法。大量实验结果表明所提出的T-CER算法和TE-Clustering算法的准确性和有效性。(4)数据空间中基于关联关系的关键字查询意图消歧算法。针对关键字查询存在的语义模糊性,利用实体类间、实体间的关联关系提出了包括关键字语义项映射、目标实体类识别和候选查询生成的三步骤关键字查询意图消歧算法。实验结果表明所提出关键字查询意图消歧算法的准确性和有效性。(5)设计并实现了一个基于语义的实体搜索原型系统KeymanticES。基于本文对数据空间中基于语义的实体搜索关键技术的研究成果,实现了基于语义的实体搜索原型系统KeymanticES。来自学术领域的真实数据集上的实验结果表明KeymanticES的有效性。总之,本文从数据空间异构性、演化性、实体间具有丰富的关联关系出发,针对数据空间中基于语义的实体搜索的关键技术展开研究,对其中包含的主要研究问题提出了新颖的、有效的解决方案。希望这些方法和技术对于开发数据空间中基于语义的实体搜索系统具有一定的参考价值。