企业网站的Web使用挖掘

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:thedogstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文从介绍企业网站的web使用挖掘的意义入手,着重分析了web使用挖掘的数据源,探讨了Web使用挖掘的常用技术,以及Web 使用挖掘的过程,企业网站的Web使用挖掘应具备的功能。
  关键词:企业网站;web使用挖掘;数据源;信息获取
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)30-0534-02
  
  Web Usage Mining ofEnterprises Web Site
  ZHANG Chun-ming
  (Liaoning University of International Business and Economics,Dalian 116052, China)
  Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining.
  Key words: enterprises Web site, Web usage mining, data source, Web crawling
  
  1 企业网站的Web 使用挖掘的意义
  
  对企业网站的Web使用信息进行挖掘已经不是对服务器的简单统计(如页面访问次数,日平均访问人数,最受欢迎页面等信息)因其已经不能满足企业网站设计人员对站点结构和内容优化的需求。通过分析企业网站的日志文件,可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的结构和内容,最终为用户提供一个方便快捷的信息获取环境和交易环境。
  
  2 企业网站的Web 使用挖掘的数据源
  
  Web使用挖掘通过分析用户在网上冲浪的过程或行为所产生的数据,来发现用户访问Web的行为模式。
  Web使用挖掘所挖掘的数据除了来自Web日志文件,还有其他的数据来源,例如:用户实时访问信息、代理服务器日志、浏览器日志、用户数据、注册数据、用户会话或交易、Cookies、书签数据以及任何用户同Web进行交互所产生的其他数据。
  
  3 企业网站的Web 使用挖掘的常用技术
  
  3.1 路经分析
  路径分析(Path Analysis)就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析,因为图形表达了各网页间定义的关系。最常见的一种是表示网站物理布局的网站结构图,它把网页当作结点,把页面间的超文本链接当作连接的边。还可以根据网页类型来生成其他图形,在这类图形中,边代表页面间的相似度,或者在边上给出使用该超链接的人数。
  3.2 关联规则
  关联规则(Association Rules)最早是由Agrawal 等人提出的,最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。
  3.3 序列模式
  序列模式(Sequential Patterns) 在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
  序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是想通过带有交易时间属性的交易数据库中发现频繁项目序列以发现某一段时间内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面。
  3.4 分类聚类
  分类算法首先建立一个模型,通过对训练数据的分析,给出预定数据类集或概念集的特征描述,然后抽取未知数据对象的自身特性,根据模型中的定义,将其划分到相对应的类别中。
  聚类(Clustering)是将数据对象分组成为多个类或簇(Cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的[。
  3.5 信息获取技术
  信息获取是指从网络收集数据的过程。它是进行后续信息处理、信息服务的基础。在大规模内容计算中,信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web(万维网-World Wide Web)的信息采集(Web Crawling, 简称WC),即根据Web协议,直接从Web上采集或下载信息。
  Web信息采集技术可以分成:基于整个Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主题的Web信息采集(Focused WC),基于用户个性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),迁移的信息采集(Relocatable WC)等等。实际系统往往是以上几个采集技术的组合。
  
  4 企业网站的Web 使用挖掘的过程
  
  企业网站的Web使用挖掘是通过挖掘用户访问企业网站时留下的访问数据进行用户模式发现和分析的过程。企业网站的Web使用挖掘的过程一般分为三个阶段:数据预处理阶段、模式发现阶段和模式分析与应用阶段。
  Web使用挖掘过程中输入的数据包括服务器日志和远程代理日志等日志文件。数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别等过程。模式发现阶段的任务是对会话或事务数据集合运用数据挖掘的相关算法进行挖掘,从而发现隐藏的模式信息。模式分析与应用阶段的任务是对挖掘出来的模式进行分析,获得有用的规则和知识。
  4.1 数据预处理阶段
  Web使用挖掘的数据预处理阶段包括数据清理、用户识别、会话识别、路径补充和事务识别和格式化数据等过程。
  4.2 模式发现阶段
  Web使用挖掘经过数据预处理阶段后,就生成了会话或事务数据库。模式发现阶段也称为挖掘算法实施阶段,它是运用各种技术和算法从预处理后得到的数据中挖掘和发现用户使用Web的各种潜在的规律和模式的过程。相关技术必须针对Web使用挖掘领域的特点做出相应的修改和完善才能进行移植。模式发现阶段使用的各种技术和算法有:统计分析(Statistical Analysis)、序列模式(Sequential Pattern)、关联规则(Association Rule)、聚类(Clustering)、分类(Classification)和依赖建模(Dependency Modeling)等方法。
  4.3 模式分析与应用阶段
  模式分析与应用阶段是整个Web使用挖掘过程的最后一步。此阶段的目的是过滤掉模式发现阶段产生的“不感兴趣”的规则和模式。由于Web使用挖掘在大多数情况下属于无偏向学习,它可以挖掘出所有的模式和规则,但是我们不能排除其中有些模式是常识性的、普通的或最终用户不感兴趣的。
  
  5 企业网站的Web使用挖掘的功能
  
  5.1 实现用户建模
  用户建模(Modelling Users)是指根据用户对一个Web页面的访问情况模型化访问者的自身特性。在识别出访问者的特性后就可以开展针对性的服务,访问者建模是个性化服务的基础和核心。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
  5.2 发现导航模式
  发现导航模式(Discovering Navigation Patterns)是Web使用挖掘的一个重要的研究领域。用户的导航模式是指群体用户对Web 站点内的页面的浏览顺序模式。
  5.3 改进企业网站访问效率
  利用Web使用挖掘可以在许多方面改进Web站点的访问效率(System Improvement
其他文献
摘要:ADO.NET是微软针对ADO的缺陷而重新设计的一种全新的数据库访问技术。阐述了ADO.NET的结构与数据模型:数据提供程序和数据集。探讨了利用ADO.NET技术访问数据库访问的方式,同时给出了采用C#语言所实现的ADO.NET数据库访问技术在数据库中编程中的具体实现方案。  关键词:C#语言;ADO.NET;数据库访问  中图分类号:TP311文献标识码:A文章编号:1009-3044(2
摘要:GetSystemMetrics函数是Windows API(Application Program Interface)函数中的一员。利用这一函数,可以获取很多关于系统的信息,包括软件系统和硬件系统等,对于面向计算机软、硬件系统检测、维护的应用程序开发有重要的应用价值。本文讨论了Delphi下GetSystemMetrics函数的典型应用,并提供对应的程序验证。  关键词:Delphi;G
摘要:随着 Internet 的发展,VoIP获得了广泛应用。目前的VoIP有多种协议,但是传统VoIP服务器只能够支持单一的协议,不同VoIP协议的互通问题始终是VoIP发展中的核心问题。本文基于公用信道思想,介绍了一种使用多协议的VoIP技术。  关键词:VoIP;公用信道;服务器   中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)24-1185-04   在Vo
【摘要】统编教材保留了部分老课文,在全新的教材体系中,面对全新的教学视野,教师教学老课文时,须具备统整意识、系统思维,发现其在新教材体系下的教学价值,明晰其教学定位,调整教学设计,引导学生掌握、运用阅读策略,实现语文要素的落实。  【关键词】老课文新教,语文要素,统整意识  统编教材在适应当代小学生的语文生活和时代需求的前提下,吸纳了课程改革以来的优秀成果,在教材的编排、课文的选取、练习的设计、活
摘要:基于校园网络的MIS开发是将先进技术应用到校园内部,通过简单的浏览界面,方便地集成了各类己有的服务:极大改变了传统的信息系统的结构设计,开发环境和应用环境,打破了信息共享的障碍。  关键词:校园网;信息系统;MIS;ASP  中图分类号:TP393文献标识码:A 文章编号:1009-3044(2008)12-20000-00    The Main Implementation Techni
摘要:课堂板书是面授教学的一个重要组成部分,板书质量的高低对教师课堂教学与学生听课效果有着重要的影响作用。认真搞好课堂教学板书工作,有利于任课教师搞好面授教学;努力提高授课质量,有利于学生牢固掌握每课时教学的重要内容。  关键词:教学 板书 技能  板书设计是教师的基本教学技能之一。板书作为一种重要的教学手段直接影响教学效果。好的板书能吸引学生的注意力,加深学生对所学知识的理解和记忆,给学生以美的
【关键词】难文浅教,语文要素,练习系统  统编教材中有不少课文内容较难,学生不易理解,写作时代离学生久远,如五年级上册的《白鹭》,六年级上册的《丁香结》《好的故事》等。  陈先云曾针对这一情况特别指出,“选人教科书的文章应该有一定的思维价值,要符合学生的最近发展区,学生经过思考或教师指导就能够读懂”“教師要根据学生的学习情况、认知水平和发展需要,把教科书中对学生来说最有价值的学习内容提炼出来,教学
摘要: 该文介绍了Lotus Domino/Notes与关系型数据库的一种通用连接方法。通过在浏览器端的动态配置,提取关系型数据库中的数据,可以协助开发人员或系统管理员在WEB方式下实时地发布信息。  关键词:动态接口;Lotus Domino/Notes;RDBMS;ODBC  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)27-1879-02  The Desig
摘要:阐明了基于Web数据库的交互式电子技术手册的研究意义;然后以美国国防部MIL-HDBK-511标准为参照,采用asp技术和ODBC接口相结合的方法来设计和访问Web数据库,提出了设计和实现基于Web数据库的交互式电子技术手册的具体方法,在交互式电子技术手册技术向网络化发展做了一些探讨工作。  关键词:交互式电子技术手册;Web数据库;对象封装  中图分类号:TP311文献标识码:A文章编号:
摘要:介绍了数字签名背景、签名体制的形式化描述以及两个特殊的数字签名方案。对如何用RSA实现盲签名和多重数字签名方案进行了研究,分析了两种具体方案实现的安全性。最后总结了这两种特殊数字签名实现过程中算法设计的优劣。  关键词:数字签名;RSA;盲签名;多重签名  中图分类号:TP316文献标识码:A文章编号:1009-3044(2008)35-2095-02  Two RSA-based Spec