基于Web文本的聚类算法的应用研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:zhenghao_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的讯速发展,互联网的数据信息量越来越大。如何对互联网的信息进行分析,便捷准确的挖掘出需要的信息知识急需解决。对聚类分析的研究可在相当程度上解决这个问题,不仅可以节省时间,并且可以提高效率。将聚类研究理论用于Web挖掘具有深刻的理论意义和重要的实际价值。本文从理论和实践两个方面分析与研究了聚类技术在Web文本挖掘中的应用。Web文本挖掘涉及众多领域的重要内容,包括:数据挖掘、信息检索、智能算法等。而本文研究的文本聚类技术是其中的重要内容之一,它不仅是一种非指导学习方法,而且不需干涉,可由计算机自动处理。本文研究的重点是通过文本聚类技术对中文文本对象进行聚类操作,首先有侧重点的对挖掘过程中的重要阶段进行研究,主要包含文本的预处理阶、聚类分析阶段。在预处理阶段,根据特征选取的特点,利用遗传学的基本知识采用一种基于遗传策略的特征选取方法。它可以在非监督学习的情况下对用特征向量来表示的文本个体进行降维操作,可以起到降低聚类算法的复杂度,保证聚类精度的作用。在聚类算法阶段,通过比较各种聚类算法的优缺点,重点分析了经典的K-means算法,然后提出一种对孤立点先检测再提取最后归并的改进K-means(WIPD)算法。改进的WIPD算法首先遍历整个样本数据集,找出所有的孤立点等异常数据进行提取,接下来对提取后的样本集进行聚类,在处理时采用自适应策略与基于最大距离的聚类中心相结合的选取方法,在相当程度上避免了聚类结果陷入局部最优的局面,在聚类完成后再将这些孤立点整理后归并入聚类结果当中,从而确保聚类结果的完整性,排除孤立点对聚类结果的影响。通过在matlab平台的实验证明改进的WIPD算法具有优良的属性,并且新算法具有的特点比原算法要好的多。最后,本文将改进前后的聚类算法应用到实际的系统当中,实现了中文Web文本聚类的整个过程,通过系统和实验证明了新算法的可行性和有效性。
其他文献
具有优良特性的XML逐渐成为了网络信息交换的载体,越来越多的数据采用XML格式存储和交换,而传统的查询技术不再适应新的应用,XML索引及查询方法的研究就显得更加迫切。论文对
入侵检测技术作为动态安全系统最核心的技术之一,在网络纵深防御体系中起着极为重要的作用。它是静态防护转化为动态防护的关键,也是强制执行安全策略的有力工具。随着网络攻
随着Web应用技术的发展和逐渐成熟,构建基于Web的信息管理系统的需求越来越复杂,开发周期越来越迫切,同时对系统的稳定性、扩展性和可维护性要求越来越高。但是在实际的系统开发
我国国防军事力量逐年提升,军事管理信息化事业的高速发展,需要不断完善和改进军事指挥管理方式,提高指挥管理的效率和信息化水平。综合态势分析是军事指挥管理的核心环节,提
随着互联网信息的快速增长,个性化的推荐系统对工业界和学术界的发展都有着重要的作用。然而,在信息高速发展的时代,传统的推荐系统面临着一系列的挑战,不仅其自身算法存在一
公共交通是人们日常生活不可或缺的一个重要组成部分,公交信息查询工具则为人们提供了公交线路查询的功能,帮助使用者了解线路信息,为自己的出行提前做好准备。然而,随着Inte
综合集成研讨环境研究的目的是采用“从定性到定量人机结合的综合集成法”解决复杂的巨型问题。本文着重研究了综合集成研讨环境中的一个子系统——决策研讨环境。首先回顾和
视觉跟踪作为计算机视觉中的重要研究领域,在智能交通、生物医学等领域应用广泛,具有重要的研究价值。在众多的视觉跟踪算法中,Camshift算法是以颜色直方图为匹配特征的自适
随着电子技术的飞速发展,电磁信息空间变得越来越复杂,对当代电子信息战中所使用的电子侦察技术提出了更高的要求,传统的单一功能的电子侦察装备已经不再适应现代的作战环境,综合
科学技术的迅猛发展,特别是信息技术的突飞猛进,使现代社会成为了一个信息化的社会,这为军队的数字化、信息化建设带来了很大机遇。   政治工作是军队的一项重要工作,新时期如