【摘 要】
:
信息检索技术为人们日常信息搜索以及信息筛选提供了便利的服务,随着网络信息量的不断增加,人们常常希望能快速搜索到多样化的、更相关的检索结果。分布式信息检索技术可以把查询转发给相关的分布式资源库,并整合多样化的检索结果返回给用户,以满足用户的多方面检索需求。分布式信息检索通常分为协作式的环境与非协作式的环境,在协作式的环境中,检索代理能获取资源库的内部所有的信息。而在非协作式的环境中,检索代理通常通过
论文部分内容阅读
信息检索技术为人们日常信息搜索以及信息筛选提供了便利的服务,随着网络信息量的不断增加,人们常常希望能快速搜索到多样化的、更相关的检索结果。分布式信息检索技术可以把查询转发给相关的分布式资源库,并整合多样化的检索结果返回给用户,以满足用户的多方面检索需求。分布式信息检索通常分为协作式的环境与非协作式的环境,在协作式的环境中,检索代理能获取资源库的内部所有的信息。而在非协作式的环境中,检索代理通常通过查询采样的方式获得资源库的信息。在分布式信息检索中,影响资源库选择以及结果融合的因素往往众多,结合多因素进行学习,能有效的拟合多方面特征,提高资源库选择以及结果融合的效果。本文首先提出基于排序学习的资源库选择算法LTR_RS,通过分析影响资源库选择的因素,提取了资源库的词项匹配、中央采样索引库、主题相关性三个方面的特征,在LTR_RS算法中通过训练LambdaMART的排序学习模型,对资源库排序列表指标NDCG值进行优化,来提高资源库选择效果。在搜狗数据集SogouQCL上的实验结果表明,LTR_RS算法的效果与对比方法相比,在NDCG值以及准确率上均有很大的提升。针对资源库选择中有标签的训练数据获取成本高以及非协作式环境中多因素特征提取不充分的场景下,本文提出基于变分自编码器的资源库选择算法VAE_RS。VAE_RS中使用无监督学习的变分自编码器对资源库中的文档进行建模,利用文档的隐变量表示来得到资源库的向量表示,通过计算查询与资源库的向量的相似度,来得到资源库的得分。通过在TREC Fedweb数据集上的实验证明了该算法的有效性。在结果融合部分,本文提出结合文档、结果列表、资源库、垂直领域等多因素来进行结果融合学习的算法框架。通过分析影响结果融合的因素,算法框架中提取多因素特征,并采用LambaMart模型对多因素特征进行拟合,优化最终结果列表的NDCG值。在Fedweb数据集上的实验结果表明,有效利用多因素特征的结果融合学习算法相比其他模型的效果要好,并且优于目前在该数据集上表现最优的DeepMerge算法。
其他文献
推荐系统能够挖掘出用户可能感兴趣的内容,一定程度上缓解信息过载问题。在推荐系统中利用社交网络信息不仅符合真实场景中用户对于物品的选择过程,同时能够缓解推荐系统中普
随着社会的发展与科技的进步,人们在生活中遇到的许多科学、经济和工程问题呈现多极化、非线性、强约束、高维度、难以建模等特点,传统的优化算法已经很难求得问题的最优解,因此,寻求一种有效并且高效的优化方法用于解决更加复杂的优化问题至关重要,目前也成为了众多学者的研究热点。群智能优化算法作为元启发式算法的一个重要分支,因为其较强的自适应性以及在解决复杂优化问题上所表现出来的优势,受到了众多学者的青睐。教与
随着计算机网络规模不断扩大,传统的IP网暴露出越来越多的问题,如:IP地址资源耗尽、路由表急速膨胀、服务质量得不到保证等,这些导致网络可靠性和安全性急速下降。增加成本可以提高网络的可靠性和安全性,但这会导致网络资源效率低,用户费用高,从而使网络性价比很低。与此同时,网络中新兴业务的发展和新型应用的出现对网络提供带宽的能力提出越来越高的要求。20世纪90年代,国际电信联盟提出下一代网络的概念来解决这
在数字经济蓬勃发展的背景下,一些大型商业网站、金融服务系统等常常面对高并发、高访问量的服务场景。负载均衡技术的出现使得系统在处于这种恶劣的环境下依然可以平稳运行。市场上的负载均衡服务厂商很多,既有硬件厂商也有云服务提供商。诸如F5这种专业的负载均衡硬件产品,虽然性能强悍、运行稳定但是造价同样不菲。性能上稍逊色一些的软件负载均衡不但可以帮助用户应付恶劣服务场景更加有助于消减成本。软件负载均衡中较为有
非线性环形镜锁模光纤激光器是一种基于光纤结构等效可饱和吸收体的被动锁模光纤激光器。非线性环形镜锁模光纤激光器易于实现全光纤全保偏化,具有低成本、结构紧凑和抗干扰
近些年来,软件众包因为其将项目发布到互联网上,开放式利用大众的群体智慧进行软件开发的特点,在工业界和学术界受到了广泛关注。如何帮助用户挑选合适自己的项目,是众包的关
诱饵文档作为黑客常用的网络攻击载体,主要包含两部分:文档内容和植入的病毒或木马。诱饵文档内容能否吸引被攻击者是诱饵文档攻击的关键。一般来说,诱饵文档内容构建的方式有两种:一种是人工伪造诱饵文档,费时费力,但迷惑性高,吸引力强,攻击成功率高;另一种是搜集相关的网络资源构建诱饵文档,方便快捷,但迷惑性差,吸引力弱,攻击成功率低。具备较强吸引力和迷惑性的诱饵文档不仅能成功对被攻击者实施攻击,而且能在被攻
由于高频谱效率和抗色散能力,光正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)可以极大地提高光通信系统的传输性能。特别地,自适应调制光正交频分复用(Adaptively Modulated O-OFDMAMOOFDM)可以调节每个子载波上的信号调制格式。为了升级现有的基于多模光纤(Multimode-Fiber,MMF)的网络,AMOO
近年来,随着虚拟现实(Virtual Reality,VR)、人工智能(Artificial Intelligence,AI)领域的不断发展,智能穿戴与仿生探测设备的研究取得了长足的进步。不断扩大的市场份额和不断提
纳米级金属-半导体结构材料在半导体和微电子领域占有重要的地位,它具有丰富的物理特性。在寻找高性能金属-半导体结构材料的过程中,检测或评价金属薄膜的厚度一直都是一个关