基于K-means算法的中文文本聚类系统的研究与实现

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:zhongguoidc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本挖掘就是加工和处理这些文本,从而为人类提供更多的信息。作为文本挖掘的重要分支,文本聚类技术的研究有着重要的意义。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。   本文介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本预处理,结合退一字回溯法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用TFIDF评估函数。在对K-means聚类算法进行分析研究后,本文提出了基于分段技术的K-means聚类算法,对于聚类分析中普遍存在的初始中心选择问题进行优化。并且,通过实验证明这种方法的可行性,能够明显的减少聚类过程中迭代次数和CPU计算时间。   最后,本文设计了一个文本聚类系统,测试了本文设计的基于分段的改进后的K-means聚类算法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。
其他文献
Web服务是一种面向服务的分布式计算模型,它提供一种平台独立、自描述、分布式的软件组件,是实现业务流程的一种松散耦合、应用互操作的平台。   单一的Web服务难以满足目前
这个时代,人类信息正在以空前地速度产生和数字化。这些信息的载体多种多样,如,新闻博客,微博,网页,科学论文,书籍,图片,声音,视频,以及各种社交网络。信息载体的多样化也直接导致了信息
报刊在我国具有悠久的历史,产生于唐代时期,直到现在仍然是信息传播的重要途径。在各个时期都为人们提供了大量的,及时的新闻,帮助人们了解世界,洞悉重大事件的发展变化,给人们带来
随着计算机技术的不断发展,应用于专业领域的模拟和仿真软件得到了迅速的发展,为企业做出正确的决策提供了有力的数据支持,降低了企业投资的风险和成本,《钻井计算机模拟系统》(
在信息爆炸的今天,无论是商业企业、科研机构或者政府部门,都积累了海量的、以不同形式存储的数据资料。由于这些资料十分繁杂,要从中发现有价值的信息或知识,达到为决策服务的目
在信息技术飞速发展的今天,以优盘、移动硬盘、数码相机为代表的移动存储设备大量涌现在我们的生活中。凭借其容量大、体积小、使用灵活、携带方便等优点,在各级应用中迅速普及
分子影像是一门新兴的前沿综合交叉学科,融合了分子生物学、化学、数据处理、图像处理等技术,它应用影像学方法,对活体状态下的生物过程进行细胞和分子水平的定性和定量研究,可以
学位
作为微重力科学的研究手段,空间站被用于进行大量的空间科学实验,包括蛋白质晶体生长、燃烧、材料和流体力学实验,这些实验在一个很宽的频率范围内都需要静态的加速度环境。振动隔离系统的基本目标是隔离空间站上的各种振动,抑制实验过程中的加速度环境,以实现空间科学实验所需要的低加速度环境。由于我国微重力科学研究的发展,特别是未来空间站的建立,对振动隔离系统的需求也日益迫切。本文对微重力隔振系统进行了力学分析。
为了保证柔性软件的质量,改善软件柔性,本文以柔点为核心要素,建立了面向用户的软件柔点的测试模型。本文借鉴了黑盒测试用例的一些设计方法,包括等价类划分、边界值分析、错
在基于划分方法的聚类算法中,k-means算法因为简单易实现的特点而得到广泛的应用。然而它存在诸多的缺点特别是对于大规模数据不能进行有效的聚类分析。本文主要研究了如何在