基于社会化标签的信息检索研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cklove111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化标签已经成为用户管理、组织、共享网络信息的主要工具,也是许多社交网站及社区网站的基本功能。大量的社会化标签提供了来自用户对网络对象的丰富描述,在很大程度上可以覆盖网络上的有用信息、较为准确的表达文档主题,成为一种相对容易获得的重要数据资源。这种资源的分析和处理,对于信息检索的研究与应用具有重要价值。  本文以检索领域的核心问题,即文档排序与文档聚类为切入点,对如何利用标签数据进行深入研究。主要贡献如下:  1提出基于社会化标签的文档重排序:现有的基于标签数据的检索方法需要分析整个数据集,导致计算量很大并且对于特定的查询不能很好的拟合,这些问题通过重排序可以得到有效解决。我们的方法首先利用标签及文档内容来计算文档相似度,然后利用相似度来对文档相关性进行调整。在计算相似度时,本文提出一种基于矩阵分解的多视图的信息抽取方法CRMF,CRMF要求分解后的隐式特征能够最大限度的保留原始视图中的内容及关系信息。文档间的相似度可以基于CRMF得到的隐式特征来计算。实验结果表明,结合标签与文档内容词进行检索结果重排序,效果要好于只利用文档内容词;在利用标签数据方面,基于CRMF抽象特征得到的相似度对于重排序的效果要显著好于其他相似度计算方法。  2提出基于标签数据分类特性的话题模型:在检索中,利用话题模型LDA来平滑语言模型被证明效果显著。直观上,可以通过提高话题模型的估记来提高对语言模型的平滑效果。本文给出了基于标签分类属性的话题模型TR-LDA。具体地,TR-LDA将标签建模为高层类别,文档内容词被认为是按照比例从文档源与标签源抽样后的混合结果,其话题赋值同时考虑文档与标签的话题分布,这样通过提高对文档内容词的话题估计从而提高对文档的话题估计。利用标签分类属性可以降低标签稀疏性的影响,更大地发挥标签对文档话题估计的作用。实验结果表明,在检索上,利用TR-LDA的平滑效果显著好于LDA,并且也要好于现有的基于标签文本属性的话题模型。  3提出基于用户的标签扩展方法来做网页聚类:社会化标签可以反映文档主题,已有工作探索将其作为一种补充资源来提高聚类效果。我们更进一步,研究只利用用户标签来做聚类能否可以获得与基于文档内容的聚类相近的效果。但是,绝大部分的标注网页标签数很少,从这些数据很难学到有意义的结果。为此,我们提出标签扩展的方法,即通过引入用户标注历史中的相关标签来扩充聚类文档集的统计信息。在利用扩展标签时,我们提出了基于合并表示的LDA与Folk-LDA模型,这两种方法可以在利用扩展标签的同时降低噪音的影响。实验证明了标签扩展方法的有效性,并且在数据集上发现基于标签的聚类结果并不差于基于文档内容的聚类结果。
其他文献
IT服务管理为企业进行IT系统的规划、研发、实践和运营方面的有效管理提供了指导方法。事件管理是ITIL服务管理流程中最关键的流程之一,其目标是在发生突发或意外事件时,能尽
模糊隶属函数是模糊集中的一个重要概念,可以用来表示概念的语义信息。根据问题的性质和专家经验定义模糊隶属函数,该方法具有较强的主观性,可扩展性不强,适用于低维的小数据集。
随着计算机技术的飞速发展,虚拟试衣系统在服装领域的应用越来越广泛。但是目前的虚拟试衣系统还有很多问题需要解决,其中最首要的问题是试衣模型单一且不能动态试衣。本文从以
学位
高光谱遥感图像的混合像元分解(解混)问题是高光谱遥感图像分析与应用的重要问题。本文围绕基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)的高光谱图像解混算法进行研
随着计算机行业的的迅速发展,软件规模、复杂度不断提升,应用领域也不断扩大,如何保证和提高软件的可靠性与安全性成为计算机领域研究的热点,软件测试已经成为软件生命周期中
学位
随着计算机应用技术的不断发展,不仅给人们的生产生活提供了极大的便利,也促进了企业信息化的发展。在当今信息的时代,实现更高的信息化水平成为各个企业在信息管理方面的重
学位
触摸屏是目前最方便、简单、自然的一种人机交互方式,应用在各个领域以及各个行业,它极大的简化了计算机的使用,即便是一些从未使用过电脑的人,也使应用变的轻而易举,充分发