搜索引擎查询日志中的聚类算法研究

来源 :计算机应用与软件 | 被引量 : 13次 | 上传用户:haierv70
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比。
其他文献
在分析了R树结点分裂方案存在不足的基础上,将分割聚类技术应用到R树结点分裂中,提出基于分割聚类技术的R树结点线性分裂算法(C-Linear),并对C-Linear分裂算法进行了理论分析和实验验证,结果表明该算法具有良好的性能,能有效地提高R树的操作效率。
在分析轮系图论模型的基础上,总结了图论模型应满足的基本条件,提出了更完善的图论模型,进而建立了行星单元体和拓扑单元回路的概念。基于图论模型,推导出了新的计算周转轮系自由
目前,大多数鲁棒图像水印所面临的最大问题就是几何攻击,而现有水印技术大都难以抵抗几何变换类攻击,如旋转、尺度变换等,由于几何攻击破坏了水印分量的同步,即使微小幅度的图像旋转或尺度变换都可能导致水印检测过程失败。提出了一种基于奇异值分解和小波变换的方法来盲提取受到几何攻击后的图像中的水印,即利用了奇异值对几何失真的稳健性,又利用了小波变换对一般攻击的稳健性。实验证明,提出的方法对几何攻击具有很好的鲁
对于感兴趣区域编码一直是图像压缩的热点之一。结合新一代静止图像压缩标准JPEG2000,介绍了JPEG2000中两种经典的ROI压缩算法:最大化位移法和一般位移法,分析了这两种方法的实现原理和优缺点,提出了一种新的JPEG2000感兴趣区域编码方法。该方法利用JPEG2000中"失真可伸缩性"的特点,对于感兴趣区域和背景区域给定的目标质量,在质量层上根据给定的目标质量对包进行丢弃处理以达到压缩的目