论文部分内容阅读
近年来,随着World Wide Web的迅速膨胀,电子商务也随之得到迅速发展,以Web站点形式展示公司产品信息已成为电子商务交易的一个重要环节,这些Web站点通常由一个后台在线数据库支持,这些数据库称为电子商务Web数据库,电子商务Web数据库中的内容只能通过基于Web表单形式的查询接口来访问。目前,随着Internet的普遍应用和电子商务Web数据库所蕴含信息量的快速增长,访问电子商务Web数据库已成为大量普通用户获取商品信息的重要手段。现有的电子商务Web数据库查询处理模式通常假定用户明确自己的查询意图并且仅支持严格查询匹配,但随着查询电子商务Web数据库的用户群从熟悉领域知识的专业人员逐渐扩展到需要即时满足的普通用户,这种精确查询处理模式已经不再适用于普通用户的查询习惯。这是因为,大量普通用户对电子商务Web数据库的结构和内容并不很了解,并且他们的查询意图本身可能就是模糊或不精确的,因此查询条件仅是他们查询意图的部分或近似描述,相应地,除了与查询要求完全匹配的查询结果之外,一些与查询要求相近的查询结果也可能是他们所需要的。在现有的电子商务Web数据库查询处理模式下,为获得更多与查询要求相近的信息,用户将不得不多次修改查询条件,直到获得满意的查询结果或丧失耐心放弃尝试为止。由此可见,对于那些希望不用手工多次调整查询条件就能从大规模电子商务Web数据库中一次性获取更多满足查询要求的大量普通用户来说,电子商务Web数据库不精确查询方法的研究具有非常重要的意义。本文针对当前电子商务Web数据库查询中亟待解决的不精确查询问题进行了研究,从满足普通用户不精确查询需求的角度出发,按照不精确查询、不精确查询下的查询结果排序和查询结果top-k检索的研究顺序,提出一套行之有效的电子商务Web数据库不精确查询解决方案并给出具体的实现技术。本文的创新性研究成果主要有:(1)为了解决电子商务Web数据库不精确查询问题,提出了基于近似函数依赖的不精确查询方法。对于一个Web数据库关系表,基于一致集的概念导出最大集,生成最小平凡函数依赖集,从而找出属性之间的近似函数依赖关系,进而提出了属性权重评估方法,最不重要属性上的基本查询条件最先放松并且放松程度最大;基于关联规则思想,提出了文本型属性值之间的相似度评估方法;根据属性权重、属性值之间的相似度和松弛阈值,提出了查询松弛重写算法。实验结果表明,提出的属性权重评估和文本型值之间的相似度评估算法是合理、稳定的;用户调查结果表明,提出的查询松弛方法具有较高的召回率,能够有效地处理电子商务Web数据库查询中的不精确查询问题。(2)为了解决由不精确查询导致的电子商务Web数据库多查询结果问题,提出了基于概率信息检索(Probability Information Retrieval, PIR)模型的不精确查询结果排序方法。该方法在原始数据和查询日志基础上,利用概率信息检索模型评估查询未指定的属性值与指定的属性值以及用户偏好之间关联关系,进而构建查询结果元组打分函数并以此对查询结果进行排序。实验结果表明,提出的排序方法能够较好地满足用户需求和偏好,从而提高了电子商务Web数据库不精确查询结果排序的有效性。(3)针对查询结果排序算法执行效率的高效性要求,提出了基于阈值(Threshould Algorithm, TA)算法的top-k检索方法。该方法利用PIR模型构建对应于数据库中每个不同属性值的单调打分函数,在此基础上提出了基于TA算法的top-k检索解决方法,给出了相应的元组列表创建、聚类和top-k元组检索算法。实验结果表明,元组列表聚类算法能够准确发现聚类中心,top-k检索算法具有较高的准确性并且在很大程度上缩短了执行时间,从而提高了大规模数据环境下top-k查询结果的检索效率。