基于Web日志的数据挖掘研究

来源 :河北工业大学 | 被引量 : 14次 | 上传用户:seanchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Internet正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息。虽然Internet上有海量的数据,但由于Web是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档,人们要想找到自己想要的数据犹如大海捞针一般。网站不能对用户及其页面进行聚类,因此也不能针对特定的用户给出特殊的服务。另外,网站的拓扑结构与用户期望之间也存在着差距。而有些特殊用户的硬件资源有限,他们使用掌上电脑浏览网页,如何为他们实现页面预取也是应当研究的课题。 如何解决这些问题?将传统的数据挖掘技术与Web结合起来,进行Web挖掘就是一个途径。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏信息的过程。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web Log分类、智能查询等。 本文首先介绍了Web挖掘的定义、任务、分类,Web挖掘的模型及处理过程。 接着,提出了一种适用于Web日志挖掘的数据结构及相应的算法。数据结构是一个用户/页面(User_URL)关联矩阵,用来表示用户对页面的访问信息。挖掘算法采用矩阵聚类(Matrix Cluster),可以实现客户、页面聚类和频繁访问路径识别及访问预测等。 本文最后总结了工作尚存的不足,并指出了Web挖掘研究的方向、应用前景和它所面临的挑战。 实验证明,采用以上算法对校园网的Web日志进行挖掘效果良好。另外,把算法应用于电子商务网站,可以建设一个自适应网站(Adaptire Website),进而实现针对具体客户的个性化服务,最终为商家的决策提供有力的支持。
其他文献
随着网络技术和信息技术的发展,电子商务已逐步被人们所接受,并得到不断普及。如何保证电子交易的安全成为电子商务发展的一个重要的问题,即如何在电子商务中从技术上保证在交易
由于近年来电信增值业务发展迅速,原有的业务接入方式已无法满足目前的需求,所以综合业务接入网关随之出现。目前电信运营商正在各地积极部署综合业务接入网关,但与其配套的