基于频繁闭词序列集的层次聚类算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zgrgyj1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网产生以后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成的规模庞大的数据库,拥有了一台能够联网的计算机,就等于拥有了整个万维网上的所有资源,人们不再为缺乏知识来源而发愁。然而,新的问题也随之产生,面对如此庞大的数据库,寻找真正需要的信息无异于大海捞针。因此数据挖掘技术应运而生,在诸多数据格式中文本格式占较大比例,针对文本数据的挖掘技术引起广泛关注。文本聚类是文本挖掘中的重要课题,文本聚类主要是指聚集主题相关文本,分离主题无关文本。文本聚类的主要过程是先将非格式化的文本数据预处理为格式化数据,接着使用聚类算法进行聚类。在上述背景下,本文分析了现有的文本聚类方法中的不足,并在此基础上对改进文本预处理过程和改善聚类算法两个方面做了深入的研究。本文的主要工作与贡献如下:本文系统地研究了与文本聚类相关的每个过程,提出将每个文本中出现的频繁闭词序列(Frequent Closed Word Sequence)作为文本特征的思想,这一思想的目的是降低文本数据的维度,解决维灾难问题,增大文本特征选择的粒度,考虑文本中词汇的顺序性与连续性在表达文本主题方面的作用。接着设计实现一种基于模式增长方式的频繁闭词序列的挖掘算法,最后运用在从文本集合中挖掘出的频繁闭词序列集,提出基于频繁闭词序列集的层次聚类算法(Frequent Closed Word Sequence Set Based Hierarchical Clustering Algorithm),该算法采用频繁闭词序列集作为文本相似度量标准避免使用传统基于距离的度量标准,进一步降低了文本特征向量的维度并且将聚簇结果簇数目作为可选参数。FCWSS-Based AHC算法不但能够产生精度较高的结果簇,而且为每个簇产生层次结构的簇描述,使得聚类结果的可理解性更强,该算法可以用于个性化推荐系统中构建层次结构的用户兴趣模型,体现出聚类结果的可用性特点。
其他文献
学位
随着通讯与计算机技术的迅速发展,越来越多的计算机系统用来提供各种及时可靠的服务,如何保证计算机系统运行可靠、稳定和持久是需要解决的关键问题,这就需要系统具备冗余和
海量数据时代对数据存储提出更高要求,基于LSM树架构的NoSQL应运而生,如Bigtable、Apache HBase和Apache Cassandra等。它们拥有良好的性能、扩展性和灵活性,已经被广泛的使用。
随着互联网的不断普及,电子商务、电子政务、校园电子业务等应用也得到了极大的发展。由于互联网所具有的广泛性和开放性,在上面传输的数据随时面临着被破坏和篡改的危险。如何
保护通信系统信息安全的核心技术包括密码系统和密码协议(也称安全协议)。系统的安全性不仅依赖于所采用的密码算法强度,而且与算法所使用的环境(安全协议)密切相关。密码系统
随着处理器设计难度和复杂度的不断提升,硅后调试在保障处理器设计正确性方面的意义越发重要,可调试性设计面临一定的挑战。首先,对于经典的抢占型的可调试性设计来说,由于调试状
传统嵌入式软件的开发方式是在桌面开发环境下开发初始版本软件,然后当嵌入式系统或者芯片原型可用时,再将软件使用交叉编译器和相关工具移植到目标环境,如ARM,MIPS,PowerPC等。然
随着Internet网络带宽的增加和网络速度的提升,GIS与Internet相结合的基于B/S模式的网络地理信息系统(WEBGIS)得到了长足发展,而且由于其具有的显著优势,正在逐步取代传统C/S
近年来,蓬勃发展的大数据技术和机器学习技术为大规模数据分析应用提供了必要的基础支撑和技术手段。然而,数据规模的持续增长和日趋复杂的数据挖掘算法,对系统的性能和处理速度
随着我国经济持续不断地快速发展,国家在基础设施建设上的投资逐年加大,建设工程交易市场也随之蓬勃发展。作为建设工程交易中心,如何保证建设工程交易的“公平、公正、公开”,确