基于Web的数据挖掘研究

被引量 : 0次 | 上传用户:zhq2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来随着数据库技术和人工智能技术的发展而出现的全新的信息技术,融合了数据库、人工智能和统计学等多种学科的知识,试图从数据中提取出先前未知、有效和实用的知识。数据挖掘技术与统计学、数据库技术、数据库知识发现等学科与密切的联系,也有明显的不同。数据挖掘主要研究内容包括广义知识、关联知识、分类知识、聚类知识、预测型知识和偏差型知识的内容。使用关联分析、分类和聚类分析、神经网络、决策树和规则推理等技术进行挖掘。 由于Web上的信息具有数量庞大、无序性强、重复性大的特点,人们现在还不能迅速、方便地从Web所包含的大量信息中获取所需要的信息。Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用模式挖掘。Web使用模式挖掘是从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构或为用户提供个性化的服务。 本文对Web使用模式挖掘的数据采集、用户浏览兴趣的度量和表达两个方面进行了研究,主要的工作有: 1.分析了现有Web使用模式挖掘的数据采集方式,指出了当前数掘采集方式的不足,如由于HTTP协议的无状态连接而难以在Web日志中得到准确的用户浏览信息。提出了一种综合利用服务器日志文件和客户端数据获取用户浏览信息的方法。 2.兴趣是指个人对客观事物的选择性态度,准确地度量用户浏览兴趣是Web使用模式挖掘的基础。本文针对Web使用模式挖掘领域,首先分析了已有的度量用户浏览兴趣方式的不足之处,如度量方式过于简单而导致不能更好地区分用户感兴趣类与不感兴趣类;没有考虑页面信息量对用户浏览时长的影响等。在此基础上,提出了一种基于用户浏览行为度量用户浏览兴趣的方法。 3.如何有效地表达用户浏览兴趣是Web使用模式挖掘研究的方向之一。本文在分析了现有的表达用户浏览兴趣方式的基础上,提出了一种基于树形结构表达用户浏览兴趣的方式。 本文提出的基于用户浏览行为度量和表达用户浏览兴趣的方法改进山东科技大学硕士学位论文摘要了原有的度量和表达方式在数据采集、兴趣度量、兴趣表达儿个方面的不足,以便更好地为进一步的挖掘做准备。
其他文献
近很多事业单位在开展档案管理工作的时候,为了进一步保障事业单位工作人员自身的合法权益,都会建设一支高素质、高水平的事业单位人员队伍,进而促进公共服务发展。随着时代
<正> 北京儿童医院陈贤楠等,应用化学发光法监测氮氧化物浓度,观察普通杂种犬10只,体重2.5~13.5kg,随机分成两组(各5只),制成缺氧性肺动脉高压组和急性肺损伤组动物模型,然后
公平与效率的关系问题就当前法学界来看,主要观点有"公平优先"、"效率优先"、"兼顾论"三种认识。我国过去实行的"效率优先、兼顾公平"的政策,虽然改善了原先平均分配效率低下
随着经济的不断发展,各企业之间的竞争不断加大,在这场竞争中就会由企业利用不真实的会计信息来达到某种目的,因此了解什么是会计信息就显得尤为重要。从会计的角度来进行分
表面上,尼采并不在重视哲学史,但事实上他对哲学史上重要的思想和哲人皆有其清晰的判断。本文以看起来极不受尼采重视的霍布斯为例,探察尼采对霍布斯的思想——尤其是他的国
上世纪末至本世纪初,重建中国文论话语,重写中国文学批评史,是文艺理论界讨论的热门话题。葛兆光先生关于思想史写法的讨论,可为重写文学批评史提供启示。罗宗强先生关于"中
论文首先介绍了水力旋流器的基本结构、工作原理、特点及其研究进展。目前油田上普遍采用重力沉降设备进行油井产出液的预处理,这些设备存在占地面积大、处理时间长、工作效率
SiC纤维增强Ti基复合材料在航空航天领域有重要的应用前景,但由于Ti的化学活性大,在复合材料的SiC-Ti界面处存在严重的界面化学反应,会极大的损害SiC/Ti基复合材料的力学性能。然
随着我国经济水平的发展,一些经济矛盾相应而生,只有从根本层面上建立健全法律法规,才能保障我国经济水平的提升和发展。本文主要从"公平与效率"的角度,对民商法与经济法的价
压力容器是承压设备,应用广泛但存在很大危险性,压力容器材料选取是设计中的重要步骤,对容器后期的使用起着决定性作用,材料的机械强度和耐腐蚀性等都会影响压力容器的使用状