基于遗传算法的文本聚类技术研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:antoney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是信息检索(Information Retrieval:IR)和数据挖掘(Data Mining:DM)等领域的一个重要研究方向。它是一种无监督的分类方法,根据样本自身的特点分成若干类,使得类内样本的相似性尽可能大、类间样本的相似性尽可能小。常用的系统聚类法聚类比较准确,但计算量很大。对样本数很多且维数很高的问题,这种方法的缺陷更为显现。受迭代方法思想的启发,人们提出了动态聚类法(也称逐步调整法),从而减少了计算量,这种算法的执行与参数设置是否得当密切相关,往往需要对样本数据的物理意义进行必要的分析。在高维且数据量大的情况下,设置合理的参数尤为困难,只能通过多次实验比较来选定;另一方面,聚类的初始数据集和目标函数都是离散量,存在许多局部极值点,而通常的动态聚类法没有判别劣值的机制,因此初始聚类中心和样本输入的次序对最终结果有着很大的影响。 遗传算法(Gentic Algorithm:GA)是一种模拟自然进化过程在全局搜索最优解的方法。本文利用遗传算法来解决对初始解敏感、易陷于局部最优的文本聚类问题,提出了基于遗传算法的动态文本聚类。我们采用二进制编码方式对聚类中心进行编码,以类内中的点与其类中心的欧氏距离作为适应度函数。通过遗传算法的选择、交叉、变异三个算子操作对类中心进行逐步迭代调整,直至适应度函数收敛,得到使聚类划分效果最好的聚类结果。在英文语料库Reuters-21578上的前10个常见类(Top10)实验结果表明:1)该方法可以克服局部极值点的问题;2)聚类结果的评价指标纯度(Purity)也比较好。如何把本方法运用于中文语料库和海量数据集有待我们进一步研究。 本文的创新之处主要有: 1) 在K-均值文本聚类算法的基础上,引入了遗传算法的思想; 2) 验证和分析了本文算法在英文数据集上的聚类性能,并把它与其它聚类算法的性能进行了比较。
其他文献
近年来,随着互联网和搜索技术的进一步发展,仅仅对于网页文本的搜索已经无法满足人们的需要,对于多媒体特别是语音数据的检索已经成为当今研究的热点问题,也是未来几年中互联
随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。
网络和通信技术的发展突飞猛进,多媒体和音/视频编解码技术日趋成熟,大量多媒体通信业务涌现出来。VoIP技术可以实现PC与电话的语音和视频通讯,同时可完成文字、图像的传送,
信息的爆炸性增长对当前的存储技术提出了巨大挑战。新的对象存储技术,能为存储系统提供高性能和高可扩展性,是构建大规模、分布存储系统的基础,正逐渐成为存储领域研究的一
随着经济和科技的飞速发展,企业对信息管理提出了更高的要求,以满足企业之间竞争的需要。作为计算机支持的协同工作CSCW研究的一个重要方向,工作流技术是实现企业业务过程建
当前网络存储系统存在的问题突出表现在网上信息的存储量规模受限;受存储接口的峰值数传率的约束,数据传输缓慢;通道效率高和存取速度慢,响应用户请求的等待时间长;传送数据
在实体识别、个性化推荐、社交网络分析和链接预测等多个领域,都会涉及到相似性度量这一问题,即需要衡量出不同对象之间的相似度。SimRank算法是一种常用的相似性度量模型,它
近年来,大数据已成为科技界和企业界关注的热点,具有广阔的研究和应用前景,但面临处理时效性与数据可用性等诸多挑战。大数据处理任务经常在数据变化较小的情况下不断重复运
组播有很广阔的应用前景,而越来越多的组播应用对组播给出了安全性要求。然而,目前的组播协议缺乏安全机制来满足上述要求,采用明文传输的组播报文在网络上很容易被窃听、冒
随着计算机技术的发展和政府机构改革的深化,人们的生活方式和思维方式产生了巨大变化。人们愈来愈依赖于办公自动化,原有的办公模式已经不能适应日益增长的事务处理、信息共享