Web挖掘技术及其应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:Ares_Stray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。 Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。 本文的工作是在“Web访问信息挖掘软件包”的开发过程中,对WWW上用户访问信息的挖掘技术进行了较为深入的研究,包括数据清洗,事务识别,Web播出中的聚类算法,关联规则发现等工作,并将Web数据挖掘技术应用于基于Cable的WEB页面广播中。本文的主要工作如下: 1.通过数据预处理技术,将Internet上非结构化或半结构化的信息组织成逻辑单元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就可以利用对传统数据挖掘的方法(如关联规则和序列模式的发现等)对Web数据进行挖掘;另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关的数据,有效地提高了挖掘效率。 2.将传统数据挖掘技术中的关联规则发现技术引入Web数据挖掘,求高频物品集是关联规则发现的核心,也是计算量最大的部分,我们采用了一种快速算法Apriori,并针对在Web应用的特点进行了改进,有效地提高了求高频站点集的效率。通过分析Web访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联规则发现可以在网站构造、Web广播等活动中得到广泛应用。 3.宽带网进行Web广播时,其播出的内容是一个大的Web页面集合。针对如何得到这个Web页面集合,以及如何组织这个Web页面集合以利于用户浏览这两个问题,本文提出一种新的聚类方法WebClustering,通过聚类得出聚类中心和聚类集,通过关联规则算法得出可信度,据此构造出一个有价值的Web页面播出集合:并且根据挖掘到的用户访问兴趣,通过形成索引页面集来帮助用户访问这个Web页面集合。这种方法较好地解决了Web广播中的内容选择及页面组织问题,取得了较为理想的效果。 4.论述了Web访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价;在以上工作的基础上,设计并实现了一个Web访问信息挖掘原型系统(WWWMiner)。
其他文献
连锁企业通过管理系统的设计,在提高企业管理基础素质的基础之上,实现其连锁经营管理系统的信息化,最终建立连锁企业物流、资金流、信息流、工作流为一体的现代综合管理决策
  本文首先根据数据中心的结构以及基础信息的分布制订出数据中心基础信息的权限与职责,然后从基础信息的一致性角度,给出了基础信息管理范围,并分析了数据中心间的管理联系。
本文主要研究了挖掘XML频繁查询模式涉及的技术、方法,所做的主要工作如下: 首先,讨论挖掘XML查询模式相关的XML、XQuery、关联规则和聚类技术;分析和比较以关联规则为基础,挖
以Web技术为代表的Internet极大促进了人类知识的传播和文化交流,改变着人类的生产和生活方式。然而,目前作为建立在标准格式化语言上的Web,并不具有良好的语义表示能力,这给基于
随着计算机技术的飞速发展,中间件已成为三大基础软件之一和网络应用系统的基础平台。其可以更好地用于开发和应用能够在异构平台上运行的应用软件,适应基于标准的、独立于计
随着计算机信息技术在各个领域的应用不断扩大,教育行业招生领域从地域横向到行业纵向实施了信息化、无纸化办公。具有针对性的并且易扩展的招生管理信息系统是完成该任务的
在许多流行的图像分享网站(如Flickr,Google+)中,用户们可以上传照片并且把同一事件的照片归到一类,作为一个照片事件(event)。浏览者可以通过搜索引擎搜到这些事件,并且这些事件以其
本文旨在把数据挖掘技术引入到地震预报领域,研究并行关联规则、聚类等在地震预报中的应用,着重讨论并行关联规则在地震地区相关性预报中的应用。 首先,对地震数据进行了数据
WWW的发展给人们带来了巨大的变化,面对如此大量的信息,人们迫切需要有效的信息发现工具在WWW上进行导航。搜索引擎就提供了这样一个导航工具。而随着多Agent技术的发展,为了
本文在广泛调研的基础上,分析了当前Web服务应用研究中构造开发模型的特点和存在的问题,通过对Web服务核心技术和模式理论的研究探索,提出了一个Web服务集成开发模型:描述了W