论文部分内容阅读
社会化标签已经成为用户管理、组织、共享网络信息的主要工具,也是许多社交网站及社区网站的基本功能。大量的社会化标签提供了来自用户对网络对象的丰富描述,在很大程度上可以覆盖网络上的有用信息、较为准确的表达文档主题,成为一种相对容易获得的重要数据资源。这种资源的分析和处理,对于信息检索的研究与应用具有重要价值。 本文以检索领域的核心问题,即文档排序与文档聚类为切入点,对如何利用标签数据进行深入研究。主要贡献如下: 1提出基于社会化标签的文档重排序:现有的基于标签数据的检索方法需要分析整个数据集,导致计算量很大并且对于特定的查询不能很好的拟合,这些问题通过重排序可以得到有效解决。我们的方法首先利用标签及文档内容来计算文档相似度,然后利用相似度来对文档相关性进行调整。在计算相似度时,本文提出一种基于矩阵分解的多视图的信息抽取方法CRMF,CRMF要求分解后的隐式特征能够最大限度的保留原始视图中的内容及关系信息。文档间的相似度可以基于CRMF得到的隐式特征来计算。实验结果表明,结合标签与文档内容词进行检索结果重排序,效果要好于只利用文档内容词;在利用标签数据方面,基于CRMF抽象特征得到的相似度对于重排序的效果要显著好于其他相似度计算方法。 2提出基于标签数据分类特性的话题模型:在检索中,利用话题模型LDA来平滑语言模型被证明效果显著。直观上,可以通过提高话题模型的估记来提高对语言模型的平滑效果。本文给出了基于标签分类属性的话题模型TR-LDA。具体地,TR-LDA将标签建模为高层类别,文档内容词被认为是按照比例从文档源与标签源抽样后的混合结果,其话题赋值同时考虑文档与标签的话题分布,这样通过提高对文档内容词的话题估计从而提高对文档的话题估计。利用标签分类属性可以降低标签稀疏性的影响,更大地发挥标签对文档话题估计的作用。实验结果表明,在检索上,利用TR-LDA的平滑效果显著好于LDA,并且也要好于现有的基于标签文本属性的话题模型。 3提出基于用户的标签扩展方法来做网页聚类:社会化标签可以反映文档主题,已有工作探索将其作为一种补充资源来提高聚类效果。我们更进一步,研究只利用用户标签来做聚类能否可以获得与基于文档内容的聚类相近的效果。但是,绝大部分的标注网页标签数很少,从这些数据很难学到有意义的结果。为此,我们提出标签扩展的方法,即通过引入用户标注历史中的相关标签来扩充聚类文档集的统计信息。在利用扩展标签时,我们提出了基于合并表示的LDA与Folk-LDA模型,这两种方法可以在利用扩展标签的同时降低噪音的影响。实验证明了标签扩展方法的有效性,并且在数据集上发现基于标签的聚类结果并不差于基于文档内容的聚类结果。