基于快速图算法的信息获取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yoki1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与信息技术的飞速发展,现今社会的信息量呈爆炸式增长,而人们对信息获取的需求也越来越大。伴随着传统搜索引擎的成熟,社交网络的兴起,社交媒体的丰富,人们可以获取信息的渠道也越来越多。如何帮助用户更快、更好地获取有价值的信息,是信息获取技术的主要研究目标。在众多的信息获取技术中,基于图学习算法的信息获取技术最近几年来获得了广泛的关注,很多算法被提出与改进,并在搜索、推荐等各种应用场景中得以实现。与传统信息获取算法不同,图学习算法(简称图算法)认为数据不是相互独立的,而是存在内在联系的;它将数据构建为图上的节点,并将数据的内在联系构建为节点之间边的关系,用以捕捉数据潜在的关系与性质。  由于信息获取应用的场景往往具有实时性、大规模等要求,图算法的运行必须非常高效,只有快速的图算法才有更多的应用与拓展空间。在本文中,我们针对信息获取技术中搜索、匹配、推荐等问题,设计了一系列基于快速图算法的技术方法。具体来讲,本文的主要研究工作包括:  提出了一种基于快速流形排序的图片检索方法。很多图片数据集具有底层聚类或者流形结构,这些结构特性对图片检索有很重要的辅助作用。流形排序(MR)是一个著名的基于图的排序模型,它针对数据内在几何结构来对数据样本进行排序,被成功应用于图片检索问题;但是MR在图构建与排序计算阶段都有很大的计算复杂度。在本文中,我们通过构建锚点图来代替传统的图结构,并设计了一种新的邻接矩阵低秩形式,在保证搜索精度的情况下,大大降低了算法的图构建与排序计算的复杂度。  提出了一种基于快速通勤距离算法的图片人脸命名方法。在新闻报道的配图中,存在大量包含人脸的图片以及人名的标题数据,我们研究的问题是如何自动完成人脸-姓名的匹配。在本文中,我们设计了一个全新的人脸-姓名匹配框架,它包含线下和线上两部分。在线下阶段,我们构建倒排索引结构来辅助姓名和人脸的关联;在线上部分,我们将备选人脸和姓名作为节点构建一个很小的图结构,并计算图上的通勤距离来获得人脸-姓名的匹配结果。更为重要的是,我们设计了快速通勤距离算法,以进一步减少在线计算的时间。  提出了一种基于协调哈希编码算法的快速近邻搜索方法。大规模数据进行检索、分类、聚类等操作的一项共性基本技术是快速近邻搜索技术,哈希编码技术是其中一种热门的研究方向,很多哈希算法在最近几年中被提出与改进。在本文中,我们提出了一种协调哈希编码技术,将数据编码为0-1的二分编码,降低存储复杂度的同时加速近邻搜索的计算。较之于传统的哈希编码算法,我们提出的方法特点在于控制数据的信息保持最大化的前提下,尽可能地均匀分布于每一个维度上,以保证哈希编码二值化的信息损失最小。  提出了一种基于子群发现的协同过滤推荐方法。在传统协同过滤技术的基础上,我们提出了一个新的概念——子群(Subgroup)。一个子群包含一个物品子集,以及在这个子集上有相似品味的一群用户。在本文中,我们希望通过子群来捕捉用户在局部物品集上的兴趣,而不是全局的兴趣。我们提出了多类联合聚类算法,来快速生成可能的子群,并在每一个子群上进行协同过滤推荐。最后,我们设计了一种统一的合并方法,将不同子群各自的推荐预测结果合并成最终的推荐输出结果,以提高推荐准确性。
其他文献
该文主要研究如何在非专用机群系统中实现进程迁移的基本机制及其相关策略.该论文按研究内容可以划分为两大部分:进程迁移实现机制的研究及其迁移支持的动态负载平衡的研究.
国内外对于表情的研究是最近几年才发展起来的.目前的研究大多是基于静止和局部化的FACS(Facial Action Coding System)编码,脸部运动的分析是基于运动模板,表情的识别也是基
该文的着眼点在于试图利用机器学习的原理来解决信息检索中的人机交互问题并做了以下几方面的工作:对于在线交互,该文提出了一种新的相关反馈算法,并在CBIR系统中得到成功的
本文详细介绍了作者通过对目前数据库访问技术存在的问题进行研究后,设计实现的一个可以跨多种数据库平台进行访问的通用数据库管理工具。 在目前的数据库环境下存在着一个
该文研究了虚拟现实技术及其在分子结构三维可视化上的应用,对国内外的现状进行了介绍、研究、分析和比较,并结合中学化学教育的特点,设计了一个基于虚拟现实技术的中学化学
该文以机器学习、进化计算和上下文无关文法为背景,通过理论和实践相结合,在对遗传程序设计方法全面了解和对其模式理论分析的基础上,着重研究了个体表示、相应的遗传操作和
该文给出从函数式语言Haskell到过程式语言C的转换技术.文中详细地介绍了转换中涉及的几项关键技术,包括:对于高阶函数定义,以及函数的Curry化应用,采用实例化的方法,将其转
该文的工作主要包括以下几个方面:(1)采用Qmail+LDAP+Linux建立并实现了一个WebMail系统.该系统以Qmail作邮件代理、LDAP服务器存放用户帐号信息、JSP技术编程,具有较好的安
该文首先研究了分组密码的一般原理和基本的设计原理.然后分析了Rijndael算法的基本结构和实现原理,并且用C语言实现了该算法.Rijndael算法采用的是典型的代替/置换结构,数据
该文首先介绍了P2P技术的概况,并将它与传统的Client/Server模式做了比较.显示出P2P技术的优势与不足.然后在对现有的面向文件共享的P2P协议进行研究的基础上,从系统结构和加