论文部分内容阅读
随着互联网与信息技术的飞速发展,现今社会的信息量呈爆炸式增长,而人们对信息获取的需求也越来越大。伴随着传统搜索引擎的成熟,社交网络的兴起,社交媒体的丰富,人们可以获取信息的渠道也越来越多。如何帮助用户更快、更好地获取有价值的信息,是信息获取技术的主要研究目标。在众多的信息获取技术中,基于图学习算法的信息获取技术最近几年来获得了广泛的关注,很多算法被提出与改进,并在搜索、推荐等各种应用场景中得以实现。与传统信息获取算法不同,图学习算法(简称图算法)认为数据不是相互独立的,而是存在内在联系的;它将数据构建为图上的节点,并将数据的内在联系构建为节点之间边的关系,用以捕捉数据潜在的关系与性质。 由于信息获取应用的场景往往具有实时性、大规模等要求,图算法的运行必须非常高效,只有快速的图算法才有更多的应用与拓展空间。在本文中,我们针对信息获取技术中搜索、匹配、推荐等问题,设计了一系列基于快速图算法的技术方法。具体来讲,本文的主要研究工作包括: 提出了一种基于快速流形排序的图片检索方法。很多图片数据集具有底层聚类或者流形结构,这些结构特性对图片检索有很重要的辅助作用。流形排序(MR)是一个著名的基于图的排序模型,它针对数据内在几何结构来对数据样本进行排序,被成功应用于图片检索问题;但是MR在图构建与排序计算阶段都有很大的计算复杂度。在本文中,我们通过构建锚点图来代替传统的图结构,并设计了一种新的邻接矩阵低秩形式,在保证搜索精度的情况下,大大降低了算法的图构建与排序计算的复杂度。 提出了一种基于快速通勤距离算法的图片人脸命名方法。在新闻报道的配图中,存在大量包含人脸的图片以及人名的标题数据,我们研究的问题是如何自动完成人脸-姓名的匹配。在本文中,我们设计了一个全新的人脸-姓名匹配框架,它包含线下和线上两部分。在线下阶段,我们构建倒排索引结构来辅助姓名和人脸的关联;在线上部分,我们将备选人脸和姓名作为节点构建一个很小的图结构,并计算图上的通勤距离来获得人脸-姓名的匹配结果。更为重要的是,我们设计了快速通勤距离算法,以进一步减少在线计算的时间。 提出了一种基于协调哈希编码算法的快速近邻搜索方法。大规模数据进行检索、分类、聚类等操作的一项共性基本技术是快速近邻搜索技术,哈希编码技术是其中一种热门的研究方向,很多哈希算法在最近几年中被提出与改进。在本文中,我们提出了一种协调哈希编码技术,将数据编码为0-1的二分编码,降低存储复杂度的同时加速近邻搜索的计算。较之于传统的哈希编码算法,我们提出的方法特点在于控制数据的信息保持最大化的前提下,尽可能地均匀分布于每一个维度上,以保证哈希编码二值化的信息损失最小。 提出了一种基于子群发现的协同过滤推荐方法。在传统协同过滤技术的基础上,我们提出了一个新的概念——子群(Subgroup)。一个子群包含一个物品子集,以及在这个子集上有相似品味的一群用户。在本文中,我们希望通过子群来捕捉用户在局部物品集上的兴趣,而不是全局的兴趣。我们提出了多类联合聚类算法,来快速生成可能的子群,并在每一个子群上进行协同过滤推荐。最后,我们设计了一种统一的合并方法,将不同子群各自的推荐预测结果合并成最终的推荐输出结果,以提高推荐准确性。