数据空间中基于语义的实体搜索关键技术研究

来源 :东北大学 | 被引量 : 5次 | 上传用户:banbe0602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据管理技术的发展和所呈现出的新特点,针对数据管理应用需求的发展情况和现有传统数据库技术、数据集成系统的不足,数据库学者提出了一种新的信息管理抽象方法--数据空间。数据空间基于pay-as-you-go的思想进行集成,具有异构性、演化性和无统一模式等特性。目前,数据空间相关技术的研究正方兴未艾,受到工业界、学术界的广泛关注,但是在基于语义的实体搜索方面仍存在许多问题有待研究和解决。例如,缺少开放的数据模型来描述数据空间中的异构实体及其丰富的关联关系;由于缺少对实体的语义关联关系挖掘的有效方法而使得对基于实体关联关系的挖掘任务和相关应用的支持能力相对薄弱;缺少针对数据空间中实体演化特性的有效的实体识别技术而不能对数据空间中的数据质量进行有效地管理;缺乏对用户的关键字查询意图的理解阻碍基于语义的实体搜索的实现。为了打破数据空间中异构资源间的语义限制,最大限度的利用数据空间中的各种数据资源,对于数据空间中基于语义的实体搜索相关技术的研究不但具有重要的理论意义而且具有很高的实际应用价值。为了更好地支持和提供数据空间中基于语义的实体搜索服务,针对上述问题,本文对数据空间中基于语义的实体搜索的若干关键技术展开研究,包括:数据空间中以实体为中心的数据模型、基于聚类的实体关联关系挖掘算法、基于时间的集合式实体识别算法和基于关联关系的关键字查询意图消歧算法。本文的主要工作包括以下几点:(1)数据空间中以实体为中心(entity-centric)的数据模型。针对数据空间中实体的异构性、实体间存在着丰富的语义关联关系,提出了一种以实体为数据单位、分层的图数据模型lgDM,由实体关联数据图GD和实体关联模式图Gs组成。lgDM能够描述异构的实体类、实体及属性值,并能够描述实体类间、实体间丰富、复杂的关联关系。研究了对图模型lgDM的权重设置方法、建立索引的方法和模型所具有的查询能力。实验结果表明所提出的数据模型lgDM在描述丰富语义关联关系方面的有效性。(2)数据空间中基于聚类的实体关联关系挖掘算法。提出了四阶段的实体关联关系构建模型,并且在实体关联关系构建的整个生命周期中引入了关联关系约束验证来确保关联关系的正确性。提出了由实体聚类、候选实体对的过滤、关联关系归纳和推理、关联强度量化四步骤组成的基于聚类的实体关联关系挖掘算法CFRQ4A,用较少的手工来逐步地发现实体关联关系。实验结果表明所提出的CFRQ4A算法的准确性和有效性。(3)数据空间中基于时间的集合式实体识别(collective ER)算法。提出了包括预处理、blocking、表象聚类和时间约束检查的四步骤的集合式实体识别算法T-CER,解决了数据空间中具有时间信息的集合式实体识别问题。针对数据空间中实体的随时间演化的特性,在表象聚类步骤提出基于演化的实体识别聚类算法TE-Clustering,在相似度度量方法中引入属性演化系数和关系演化系数来捕捉时间演化对相似度的影响。并且给出基于识别顺序依赖图Gdepend来解决集合式实体识别的识别顺序问题的方法。大量实验结果表明所提出的T-CER算法和TE-Clustering算法的准确性和有效性。(4)数据空间中基于关联关系的关键字查询意图消歧算法。针对关键字查询存在的语义模糊性,利用实体类间、实体间的关联关系提出了包括关键字语义项映射、目标实体类识别和候选查询生成的三步骤关键字查询意图消歧算法。实验结果表明所提出关键字查询意图消歧算法的准确性和有效性。(5)设计并实现了一个基于语义的实体搜索原型系统KeymanticES。基于本文对数据空间中基于语义的实体搜索关键技术的研究成果,实现了基于语义的实体搜索原型系统KeymanticES。来自学术领域的真实数据集上的实验结果表明KeymanticES的有效性。总之,本文从数据空间异构性、演化性、实体间具有丰富的关联关系出发,针对数据空间中基于语义的实体搜索的关键技术展开研究,对其中包含的主要研究问题提出了新颖的、有效的解决方案。希望这些方法和技术对于开发数据空间中基于语义的实体搜索系统具有一定的参考价值。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着我国经济社会的发展,人们生活水平大幅度提高,人们的生活方式发生改变,消费水平和消费意识也发生了巨大的改变。体育消费在人们的生活消费中已占据了一定的位置,并有扩大的趋
在降血糖药物苯甲酸阿格列汀的合成过程中,有可能因原料的因素而引入氨基吡啶类基因毒性杂质而对上述药物的用药安全性造成影响。为此试验提出了用高效液相色谱法测定3-氨基
没有农业农村的现代化,就没有国家的现代化。农业农村衣民问题是关系国计民生的根本性问题。2018年中央一号文件,以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大
期刊
随着我国经济的进一步发展,经济增长的效益和质量逐渐成为发展重点,在我国“十二五”规划中转变经济发展方式已经成为主旋律,技术创新日渐成为调整产业结构,促进经济快速持续发展
当前,受经济大环境影响,加上人力和房租成本明显上涨,而网上零售较好地迎合了消费者需求的变化,这给传统零售业运营带来很大的挑战和压力。如何重建盈利模式、整合资源,找到
【正】 由省委宣传部、省社联、省社科院和省委党校等四个单位联合发起的社会主义初级阶段理论讨论会,于今年7月16日至18日在杭州举行。来自我省各地的60余名理论工作者参加
采用顶空-气相色谱法同时测定芴类衍生物中4种残留溶剂(甲醇、乙醇、1,4-二氧六环及甲苯)的含量。取芴类衍生物样品(0.5000g)置于20mL顶空瓶中,加入N,N-二甲基甲酰胺1mL溶解
6月1日,"限塑令"开始正式实施。昨日,京城的众多超市、商场、市场已在通过各种方式将"限塑令"告知消费者,同时,数家商场、超市的负责人对记者表示,收费塑料袋是按照成本价格
期刊