大规模用户在线行为数据分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hanleifeng222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近十年来全世界网民的数量呈现快速增长的趋势,截止2011年1月全世界网民的数量已经超过了20亿。在线用户规模的急剧扩大使得用户在线行为分析在很多研究领域的意义显得越来越重大,如在经济、学术以及社会事务等领域。其中,最具有商业价值要数用户在线商业意图(Online CommercialIntention)的挖掘。通过分析用户的在线行为来挖掘出用户个人兴趣及倾向,为有针对性的广告投放提供有力的依据,从而达到更好的广告推荐效果。文中提出了一种检测用户商业意图的新方法架构,通过分析用户浏览过的网页信息,从中挖掘出用户个性化的购买倾向。借助于大型购物平台上搜索引擎的历史记录以及搜索结果页面上商品的点击分布情况,通过统计分析建立起搜索词与商品类目之间的关联——关键词词典。利用这一词典我们可以从用户浏览过的网页内容中抽取出一系列能够体现用户商业意图的关键词,关键词选取的标准包括关键词的TF、ICF、QF以及关键词本身的长度。每一个关键词根据关键词词典将被映射到一系列的商品类目,其中分值最高的几个商品类目将视为页面的商业意图检测结果。为了消除一些不相关类目对于用户商业意图结果的影响并使得OCI结果更加集中,类目的相似度模型被引入来修正OCI结果中的分值。用户每天的商业意图通过聚合其当天浏览过页面的OCI结果得到。为了体现出商业意图短暂、灵活多变的特点,我们提出了用户时间维度上的商业意图模型来更真实地体现出用户的实时商业意图变化。为了评估所提出OCI检测方法的效果,在实验部分,通过制定统一的评测标准,评测人员对于随机抽取的1036个测试页面的商业意图结果进行了人工标注。从标注结果与系统检测结果的对比中可知,在检测商业意图存在的角度,系统判断的准确率达到了70%,召回率达到了将近90%;而从系统匹商业类目的角度来看,系统匹配商业类目的正确率达到了86%。通过后续的实验我们还发现,通过限制页面关键词的数量以及设定匹配类目最小阙值等方法可以有效地提升系统检测商业意图的整体效果。作为最终的分析结果,系统以一系列商品类目的形式给出了用户在一段时间内的商业意图。根据商品类目在一段时间内的分值变化情况,可以推测出用户在这一段时间内购买某一类商品的倾向及对应程度。通过构建合适的用户购买行为模型,可以对目标用户进行有针对性的商品推荐。借助于大规模分布式计算架构,文中所提到的OCI检测系统流程可以应用于大规模用户行为数据的分析。正在运营的系统每天可以处理十亿级别的用户浏览记录,用来分析得到几千万用户的具体商业意图,每个小时的数据处理量大约在150GB。
其他文献
信息技术的日新月异使得各个领域的数据量激增,大型、分布式数据库成为数据存储的主要方式。在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的
工业色谱仪是一种大型精密在线分析仪器,它在石油、化工、医药、环保、食品等许多领域都有着广泛的用途。工业色谱仪的研制开发涉及到分析化学、机械、电子、自动化、计算机等
过去几年中,网格社区致力于发展网格技术和web服务的结合。OGSA定义网格服务为web服务的扩展,从而开发者可以集成分布、异构环境中的服务和资源。web服务则定义了描述可访问
目前,随着计算机网络技术的高速发展,在全国高校中许多教务系统相继投入使用。然而,由于这些系统及其选课子系统基本都是基于传统的B/S/S结构,在网上选课过程中,由于选课人数
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作用。传统的搜索引擎大都是基于HTML的搜索
本文围绕目前下一代互联网发展中急待解决的基础路由问题展开,根据下一代互联网的发展趋势,其基础路由模型需要具有多维的可扩展性,以期能够满足网络中多服务种类、多数据流
AVS-M是《先进音视频编码》系列标准AVS的第七部分,是无线网络与手机等移动设备视频编解码的规范和标准,该标准目前已经定稿并报送国家信产部审批。高效快速的编码器对AVS-M
近几年来,伴随着Internet的发展,Web应用急剧增加,且变得日益复杂,极大地影响了人们生活的各个方面。商业的Web应用正逐渐成为企业的核心应用,因而Web应用的质量和可靠性也渐
网络技术的快速发展和网络应用环境的不断普及,加大了人们对网络的依赖性,同时也带来了日益突出的信息安全问题。过去采用的传统的加密和防火墙技术已经不能完全满足安全需求,入
软件设计模式是可复用面向对象软件的基础,它以系统化和规格化的方式记录了可重复使用的软件设计方案和经验,能够很好地指导软件设计过程,对提高软件设计的质量具有重要意义。 本文对 J2EE 平台下的 MVC、Service Locator 和 ValueObject 等模式进行了较深入的研究,对 ValueObject 模式进行了改进,并将这些模式应用于 J2EE平台下人力资源管理系统的设计与开发中,很