搜索引擎查询分类方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaolongyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询  关键词一般较短(平均长度2-3),通过查询词本身的特征对查询进行分类比较困难。本文从丰富查询表示方式和利用无标签数据两个方向,研究查询分类的可行方法,并在识别查询的商业意图上验证方法的有效性。  本文主要包括四个部分:  1.使用查询点击文档的摘要信息或者相似查询的集合丰富查询的特征,实验表明这两种丰富查询特征的方法对于识别用户商业意图非常有效。  2.根据查询之间的关联关系构建了四种查询图,在图上使用标签传播算法进行查询分类,实验验证,这种方法可以达到有监督机器学习方法同等的分类效果。  3.通过组合多种查询图丰富查询图的先验知识,或者是使用最大熵分类器扩展有标签的数据集改进标签传播算法的分类效果。实验表明,组合后的图更适合于标签传播算法,扩展有标签数据集的方法也可以很好的提升标签传播算法的分类效果。  4.组合使用标签传播算法和最大熵分类器,一种方法是通过标签传播算法扩大最大熵分类器的训练集,另外一种方法使用互学习的方式结合两种分类器,实验表明,训练集扩展后的最大熵分类器分类效果有明显提升,当有标签的数据集很少的时候,互学习的方法可以获得很好的优化。
其他文献
实时系统是一类具有时间限制的系统,系统的正确性不仅仅取决于计算结果的正确性,也取决于得出结果的时间。传统的实时系统大多属于硬实时系统,这种系统一般运行环境明确、任
随着网络技术的发展,一些新型网络应用对数据的完整性验证提出了更高的功能与安全要求。尤其是无线传感器网络以及云存储的出现与发展,数据异地采集与存储的模式对数据完整性
如今,形式化方法越来越多地被应用到与生命财产安全密切相关的计算机软件领域。其中,编程语言的形式化操作语义起着一个重要的作用,比起通常用自然语言描述的编程语言规范,形
随着智能手机的普及,Android操作系统逐渐流行起来,并在2011年超越塞班,成为最流行的智能手机操作系统。Android巨大的市场占有率也吸引了众多的开发者为其开发应用程序。然
随着生物医药技术以及计算机科学技术的发展,质谱分析技术在蛋白质组学及糖组学等多领域得到了应用,包括蛋白质鉴定、糖分子结构鉴定、生物标记物发现与疾病诊断建模等。  质
云计算自从被提出以后,就一直是国内外计算机网络技术研究的一个热点。随着云计算的广泛应用,云计算平台的安全性成为了云计算的核心问题之一。云计算与传统计算相比最大的变化
学位
在软件迭代更新的开发过程中,会出现测试用例与被测代码不一致的情况,即当前的程序代码,并不能够全部通过旧版本的测试用例。这可能由当前代码的错误引发,也可能是测试用例造成。
作为目标文件的集合,C语言函数库为系统运行和软件开发提供了必要的支持。64位技术的普及为计算机的发展注入了强劲动力。UniCore-3处理器是我国自主研发的64位处理器。为支持
语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研