基于遗传算法的Web用户聚类模型的研究

被引量 : 0次 | 上传用户:wang1hnsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘作为Web挖掘的一个重要组成部分,包含了大量的用户访问信息,对之进行分析,从中挖掘出用户的行为模式,有着重要的理论和实践意义。Web日志挖掘的方法主要有三种:聚类分析、关联分析、序列分析,其中,聚类分析方法适合挖掘具有噪音和不完整数据的大量数据集,因此它在用户行为模式分析中起着重要的作用。在聚类分析中,K均值算法是应用较为广泛的一种算法,但是它的缺点是对初始值非常敏感而且容易陷入局部极小值,因此本文引入遗传算法,将遗传算法与K均值算法进行整合,充分发挥遗传算法启发式全局寻优的计算优势,寻求最优聚类。本文所述系统首先根据网站的拓扑结构对页面进行编码,在编码中存储了页面的层次关系及其类属关系,有助于提高了Web用户的聚类质量。然后以编码为基础根据Web日志得到一组用户行为访问向量,并改进了一个基于遗传算法的Web用户聚类模型WUGC(Web User Genetic Clustering),以实现对Web用户的聚类分析。WUGC以遗传算法为基础,在聚类过程中利用个体间的选择、交叉、变异操作,保留适应度高的个体并使之进化,直至得到最优的聚类结果。这种算法对初始聚类中心和样本输入次序可以不做要求,从而避免了K均值算法的对初始值敏感而且容易陷入局部极小值的问题。最后,系统设计了一个实验平台,分别采用K均值算法和WUGC模型对Web用户进行聚类分析,并对实验结果进行比较。结果表明:新方法在聚类问题中得到的结果要优于传统K均值聚类方法,但是由于用到了遗传操作,聚类速度相对K均值方法要慢一些。
其他文献
化疗是治疗恶性肿瘤的重要方法之一,化疗在治疗的同时,也会产生许多毒性作用,便秘是晚期肿瘤病人较为常见且较为痛苦的症状之一,将治疗恶性肿瘤患者化疗后发生便秘的护理体会
美国电影《泰坦尼克号》问世以来,在不少国家的观众中掀起了一股观赏浪潮,形成了一种值得研究的世界性文化现象。灾难与爱情、生与死构成狂潮,冲击着全球票房。《泰坦尼克号
研制了一台零电压软开关电源,其目的是代替微波炉中工频变压器和半波倍压整流电路,为磁控管供电。用LLC谐振变换器作为电源主电路,以dsPIC单片机为核心设计了电源的控制系统,
14世纪末尼德兰两位画家凡·爱克兄弟制造出一种以油脂为主的绘画媒剂配方,使纯粹的油画创作成为现实。自此,油画成为了西方绘画艺术的重要门类之一。艺术当随时代,技术的进
赵季平是当代著名作曲家,为中国电影音乐的发展做出了卓越的贡献。其为张艺谋导演的电影《红高粱》所作配乐,选曲采用的地方民间音乐素材、民族乐器,无不体现出作曲家运用民
目的观察隔附灸对化疗后患者白细胞减少症的预防作用,并观察患者生存质量、住院时间、G-CSF使用次数及治疗相关费用的变化。方法收集2016年11月~2018年11月本院门诊及住院接
云计算是一个新兴的商业计算模型。它利用高速互联网的传输能力,将数据的处理过程从个人计算机或服务器移到互联网上的计算机集群中。云计算使得超级计算能力通过互联网自由
近年来,随着ERP产品的不断发展与成熟以及中国企业的管理能力和信息技术应用水平不断提高,ERP系统逐渐被越来越多的企业所采纳,但是并未取得预期效果,很多企业以失败而告终。
信息技术的日新月异和Internet的迅猛发展在给人类生活带来便利的同时,也随之衍生出了信息过载问题,浩瀚的海量信息使得以往单纯依靠用户主动寻找的服务模式已不能满足实时、
就目前而言,包装设计受益不均现象在不同的人群中仍有较明显的表现。设计者对弱势群体的忽视,使其在使用和信息接收上受诸多人为限制。这不仅对弱势群体造成伤害,同时也使企