论文部分内容阅读
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询 关键词一般较短(平均长度2-3),通过查询词本身的特征对查询进行分类比较困难。本文从丰富查询表示方式和利用无标签数据两个方向,研究查询分类的可行方法,并在识别查询的商业意图上验证方法的有效性。 本文主要包括四个部分: 1.使用查询点击文档的摘要信息或者相似查询的集合丰富查询的特征,实验表明这两种丰富查询特征的方法对于识别用户商业意图非常有效。 2.根据查询之间的关联关系构建了四种查询图,在图上使用标签传播算法进行查询分类,实验验证,这种方法可以达到有监督机器学习方法同等的分类效果。 3.通过组合多种查询图丰富查询图的先验知识,或者是使用最大熵分类器扩展有标签的数据集改进标签传播算法的分类效果。实验表明,组合后的图更适合于标签传播算法,扩展有标签数据集的方法也可以很好的提升标签传播算法的分类效果。 4.组合使用标签传播算法和最大熵分类器,一种方法是通过标签传播算法扩大最大熵分类器的训练集,另外一种方法使用互学习的方式结合两种分类器,实验表明,训练集扩展后的最大熵分类器分类效果有明显提升,当有标签的数据集很少的时候,互学习的方法可以获得很好的优化。