论文部分内容阅读
目前在全球的电子商务网站上每天都会产生数以百万计的交易额。2009年,中国的C2C市场规模一举超过30亿美元。随着电子商务市场爆炸式的增长,无论对于买家购物体验,还是对于卖家商品的成交转换来说,商品搜索结果的点击预测分析都变得越来越重要。本文着眼于C2C电子商务网站,对用户查询日志以及点击日志进行数据挖掘,分析了用户对搜索结果的点击行为,并给出了一个预测商品搜索结果点击概率的解决方案和系统框架。本文分为三大部分。在第一部分中,我们阐述了商品搜索的自身特点,并通过数据统计分析了商品搜索结果的页面展示和点击率的分布情况;第二部分简要介绍了点击预测系统的框架和其中运用的数学模型,并阐述了特征处理过程中需要注意的问题;在第三部分我们详细的研究了商品搜索各个维度的特征,并给出了预测点击的算法和实验分析。在广告搜索和网页搜索的领域中,大量的学者对点击预测做了深入的研究。然而在商品搜索领域中,有关搜索结果点击分析与预测的研究却很少。我们尝试并验证广泛应用于广告搜索领域中的各种点击预测方案在商品搜索领域中的有效性。同时,根据C2C网站中商品搜索的特点与特性,我们按照参与商品搜索过程的四个重要角色:查询、买家、卖家和商品,将可用于构建预测模型的特征划分为四类。针对每一类特征我们进行了深度挖掘和分析,并建立了对应的预测模型。大量的实验和数据表明,这些具有商品搜索代表性的特征可以大幅度的提高搜索结果点击预测的准确率与召回率,能够为商品搜索的点击预测提供重要的判断依据。在分析点击预测模型问题的同时,我们还对点击模型中普遍存在的问题做了基本的分析和论证。位置偏置是点击日志中普遍存在的现象,通过数据统计,我们可以总结出用户更偏好点击在搜索结果中排序靠前的结果。大量的学术论文对这一现象进行了研究和分析,在这些研究成果的基础上,我们给出了适合商品搜索结果纠正点击偏置的解决方案。由于真实的点击日志中存在严重的数据分布不平衡的问题,直接用点击日志数据来训练模型会严重影响预测模型的性能。在本文中我们对该问题做了一定篇幅的讨论并给出了实验结果和结论。