论文部分内容阅读
摘要:本文从介绍企业网站的web使用挖掘的意义入手,着重分析了web使用挖掘的数据源,探讨了Web使用挖掘的常用技术,以及Web 使用挖掘的过程,企业网站的Web使用挖掘应具备的功能。
关键词:企业网站;web使用挖掘;数据源;信息获取
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)30-0534-02
Web Usage Mining ofEnterprises Web Site
ZHANG Chun-ming
(Liaoning University of International Business and Economics,Dalian 116052, China)
Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining.
Key words: enterprises Web site, Web usage mining, data source, Web crawling
1 企业网站的Web 使用挖掘的意义
对企业网站的Web使用信息进行挖掘已经不是对服务器的简单统计(如页面访问次数,日平均访问人数,最受欢迎页面等信息)因其已经不能满足企业网站设计人员对站点结构和内容优化的需求。通过分析企业网站的日志文件,可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的结构和内容,最终为用户提供一个方便快捷的信息获取环境和交易环境。
2 企业网站的Web 使用挖掘的数据源
Web使用挖掘通过分析用户在网上冲浪的过程或行为所产生的数据,来发现用户访问Web的行为模式。
Web使用挖掘所挖掘的数据除了来自Web日志文件,还有其他的数据来源,例如:用户实时访问信息、代理服务器日志、浏览器日志、用户数据、注册数据、用户会话或交易、Cookies、书签数据以及任何用户同Web进行交互所产生的其他数据。
3 企业网站的Web 使用挖掘的常用技术
3.1 路经分析
路径分析(Path Analysis)就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析,因为图形表达了各网页间定义的关系。最常见的一种是表示网站物理布局的网站结构图,它把网页当作结点,把页面间的超文本链接当作连接的边。还可以根据网页类型来生成其他图形,在这类图形中,边代表页面间的相似度,或者在边上给出使用该超链接的人数。
3.2 关联规则
关联规则(Association Rules)最早是由Agrawal 等人提出的,最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。
3.3 序列模式
序列模式(Sequential Patterns) 在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是想通过带有交易时间属性的交易数据库中发现频繁项目序列以发现某一段时间内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面。
3.4 分类聚类
分类算法首先建立一个模型,通过对训练数据的分析,给出预定数据类集或概念集的特征描述,然后抽取未知数据对象的自身特性,根据模型中的定义,将其划分到相对应的类别中。
聚类(Clustering)是将数据对象分组成为多个类或簇(Cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的[。
3.5 信息获取技术
信息获取是指从网络收集数据的过程。它是进行后续信息处理、信息服务的基础。在大规模内容计算中,信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web(万维网-World Wide Web)的信息采集(Web Crawling, 简称WC),即根据Web协议,直接从Web上采集或下载信息。
Web信息采集技术可以分成:基于整个Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主题的Web信息采集(Focused WC),基于用户个性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),迁移的信息采集(Relocatable WC)等等。实际系统往往是以上几个采集技术的组合。
4 企业网站的Web 使用挖掘的过程
企业网站的Web使用挖掘是通过挖掘用户访问企业网站时留下的访问数据进行用户模式发现和分析的过程。企业网站的Web使用挖掘的过程一般分为三个阶段:数据预处理阶段、模式发现阶段和模式分析与应用阶段。
Web使用挖掘过程中输入的数据包括服务器日志和远程代理日志等日志文件。数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别等过程。模式发现阶段的任务是对会话或事务数据集合运用数据挖掘的相关算法进行挖掘,从而发现隐藏的模式信息。模式分析与应用阶段的任务是对挖掘出来的模式进行分析,获得有用的规则和知识。
4.1 数据预处理阶段
Web使用挖掘的数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别和格式化数据等过程。
4.2 模式发现阶段
Web使用挖掘经过数据预处理阶段后,就生成了会话或事务数据库。模式发现阶段也称为挖掘算法实施阶段,它是运用各种技术和算法从预处理后得到的数据中挖掘和发现用户使用Web的各种潜在的规律和模式的过程。相关技术必须针对Web使用挖掘领域的特点做出相应的修改和完善才能进行移植。模式发现阶段使用的各种技术和算法有:统计分析(Statistical Analysis)、序列模式(Sequential Pattern)、关联规则(Association Rule)、聚类(Clustering)、分类(Classification)和依赖建模(Dependency Modeling)等方法。
4.3 模式分析与应用阶段
模式分析与应用阶段是整个Web使用挖掘过程的最后一步。此阶段的目的是过滤掉模式发现阶段产生的“不感兴趣”的规则和模式。由于Web使用挖掘在大多数情况下属于无偏向学习,它可以挖掘出所有的模式和规则,但是我们不能排除其中有些模式是常识性的、普通的或最终用户不感兴趣的。
5 企业网站的Web使用挖掘的功能
5.1 实现用户建模
用户建模(Modelling Users)是指根据用户对一个Web页面的访问情况模型化访问者的自身特性。在识别出访问者的特性后就可以开展针对性的服务,访问者建模是个性化服务的基础和核心。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
5.2 发现导航模式
发现导航模式(Discovering Navigation Patterns)是Web使用挖掘的一个重要的研究领域。用户的导航模式是指群体用户对Web 站点内的页面的浏览顺序模式。
5.3 改进企业网站访问效率
利用Web使用挖掘可以在许多方面改进Web站点的访问效率(System Improvement
关键词:企业网站;web使用挖掘;数据源;信息获取
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)30-0534-02
Web Usage Mining ofEnterprises Web Site
ZHANG Chun-ming
(Liaoning University of International Business and Economics,Dalian 116052, China)
Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining.
Key words: enterprises Web site, Web usage mining, data source, Web crawling
1 企业网站的Web 使用挖掘的意义
对企业网站的Web使用信息进行挖掘已经不是对服务器的简单统计(如页面访问次数,日平均访问人数,最受欢迎页面等信息)因其已经不能满足企业网站设计人员对站点结构和内容优化的需求。通过分析企业网站的日志文件,可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的结构和内容,最终为用户提供一个方便快捷的信息获取环境和交易环境。
2 企业网站的Web 使用挖掘的数据源
Web使用挖掘通过分析用户在网上冲浪的过程或行为所产生的数据,来发现用户访问Web的行为模式。
Web使用挖掘所挖掘的数据除了来自Web日志文件,还有其他的数据来源,例如:用户实时访问信息、代理服务器日志、浏览器日志、用户数据、注册数据、用户会话或交易、Cookies、书签数据以及任何用户同Web进行交互所产生的其他数据。
3 企业网站的Web 使用挖掘的常用技术
3.1 路经分析
路径分析(Path Analysis)就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析,因为图形表达了各网页间定义的关系。最常见的一种是表示网站物理布局的网站结构图,它把网页当作结点,把页面间的超文本链接当作连接的边。还可以根据网页类型来生成其他图形,在这类图形中,边代表页面间的相似度,或者在边上给出使用该超链接的人数。
3.2 关联规则
关联规则(Association Rules)最早是由Agrawal 等人提出的,最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。
3.3 序列模式
序列模式(Sequential Patterns) 在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是想通过带有交易时间属性的交易数据库中发现频繁项目序列以发现某一段时间内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面。
3.4 分类聚类
分类算法首先建立一个模型,通过对训练数据的分析,给出预定数据类集或概念集的特征描述,然后抽取未知数据对象的自身特性,根据模型中的定义,将其划分到相对应的类别中。
聚类(Clustering)是将数据对象分组成为多个类或簇(Cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的[。
3.5 信息获取技术
信息获取是指从网络收集数据的过程。它是进行后续信息处理、信息服务的基础。在大规模内容计算中,信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web(万维网-World Wide Web)的信息采集(Web Crawling, 简称WC),即根据Web协议,直接从Web上采集或下载信息。
Web信息采集技术可以分成:基于整个Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主题的Web信息采集(Focused WC),基于用户个性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),迁移的信息采集(Relocatable WC)等等。实际系统往往是以上几个采集技术的组合。
4 企业网站的Web 使用挖掘的过程
企业网站的Web使用挖掘是通过挖掘用户访问企业网站时留下的访问数据进行用户模式发现和分析的过程。企业网站的Web使用挖掘的过程一般分为三个阶段:数据预处理阶段、模式发现阶段和模式分析与应用阶段。
Web使用挖掘过程中输入的数据包括服务器日志和远程代理日志等日志文件。数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别等过程。模式发现阶段的任务是对会话或事务数据集合运用数据挖掘的相关算法进行挖掘,从而发现隐藏的模式信息。模式分析与应用阶段的任务是对挖掘出来的模式进行分析,获得有用的规则和知识。
4.1 数据预处理阶段
Web使用挖掘的数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别和格式化数据等过程。
4.2 模式发现阶段
Web使用挖掘经过数据预处理阶段后,就生成了会话或事务数据库。模式发现阶段也称为挖掘算法实施阶段,它是运用各种技术和算法从预处理后得到的数据中挖掘和发现用户使用Web的各种潜在的规律和模式的过程。相关技术必须针对Web使用挖掘领域的特点做出相应的修改和完善才能进行移植。模式发现阶段使用的各种技术和算法有:统计分析(Statistical Analysis)、序列模式(Sequential Pattern)、关联规则(Association Rule)、聚类(Clustering)、分类(Classification)和依赖建模(Dependency Modeling)等方法。
4.3 模式分析与应用阶段
模式分析与应用阶段是整个Web使用挖掘过程的最后一步。此阶段的目的是过滤掉模式发现阶段产生的“不感兴趣”的规则和模式。由于Web使用挖掘在大多数情况下属于无偏向学习,它可以挖掘出所有的模式和规则,但是我们不能排除其中有些模式是常识性的、普通的或最终用户不感兴趣的。
5 企业网站的Web使用挖掘的功能
5.1 实现用户建模
用户建模(Modelling Users)是指根据用户对一个Web页面的访问情况模型化访问者的自身特性。在识别出访问者的特性后就可以开展针对性的服务,访问者建模是个性化服务的基础和核心。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
5.2 发现导航模式
发现导航模式(Discovering Navigation Patterns)是Web使用挖掘的一个重要的研究领域。用户的导航模式是指群体用户对Web 站点内的页面的浏览顺序模式。
5.3 改进企业网站访问效率
利用Web使用挖掘可以在许多方面改进Web站点的访问效率(System Improvement