论文部分内容阅读
自互联网出现以来,网络信息每天都在快速增加这些信息既包括传统形式的网页内容电子文档以及图片视频音频等多媒体文件,也包括现在广泛流行的微博社交网站移动应用软件APP等,它们广泛地存在于各种网络论坛个人邮件Blog以及社交网络账户手机等的应用软件中用户想要在如此浩瀚而又如此多样化的网络资源中准确地找到能满足自己需求的信息越来越困难这给现代的搜索引擎的提出了挑战:如何能准确地预测此时此地用户提交的查询词背后的潜在意图用户的查询目标在各个查询下有各自不同的含义,需要根据各个用户当时的需求返回相应的结果,而不是仅仅根据用户提交的查询词返回统一的结果如何能准确地预测此时此地用户提交的查询词背后的潜在意图这是现代的搜索引擎新的关注点在前期对网络用户查询意图识别的开拓性研究中,主要是进行了小范围的人工研究本课题提出了基于分类的自动识别网络用户的查询意图针对此问题,开展了以下工作:1.基于Broder关于网络用户的查询意图的分类体系,同时考虑到导航类查询和事务类查询的查询行为类似,都需要先导航到某一网站,再在此网站上进行活动,且导航类和事务类的查询分类特征有很多相似之处,而与信息类的查询特征区别较大因此,将查询意图分为信息类查询和非信息类查询两类2.为了和搜索引擎更好地结合,提出了基于机器学习的分类方法由于不同的分类算法只能应用于特定的应用场景所以,鉴于互联网的海量数据,选择了支持向量机SVM分类算法3.实验数据集采用了来自真实的网络搜索引擎日志记录为了保证实验的实际意义,选择了AOL网站3个月的日志信息,达到200万条查询,且经过人工标注的数据量也比较大,达到1935条典型的用户查询4.选取适当的分类特征为了提取有效且全面的分类特征,不仅需要网络用户之前的搜索日志提供的有效特征,如用户的点击特征nCS nRS以及点击结果的排名中位数mRank,还需要提供更多的信息来解决以前未出现过的查询词通过分析用户使用搜索引擎进行查询的行为,提出了基于session的平均查询会话数AvgQuery作为一个特征,该特征具有很好的区别性另外,查询词词项长度nTerms也作为反映查询词自身的特征被列入对这些分类特征在实验数据集上进行了统计分析,有些是区别性很明显,但仍有些在坐标图上的区别不太明显,表明这些特征可能是线性不可分的5.采用信息检索领域常用的查准率和召回率指标对查询意图的分类效果进行评价考虑到信息类和非信息类分布的不均匀性,为了进行客观的评价,本文增加了F值对分类结果进行评价在数据集上的实验结果表明通过结合查询的多个特征有助于识别查询意图,在人工标注的测试集中对查询意图分类的正确率达到80%