适合并行的无干预文档聚类算法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户：leo19820725

【摘要】

：

随着社会信息化的发展,以文档形式存在的信息记录,其数量越来越多,积累速度越来越快,类别也越来越丰富。对文档进行高效的利用是目前关注的重要热点。文档聚类分析就是对文档

【作者】

：

杨剑锋

【出处】

：

武汉大学

【发表日期】

：

2010年01期

【关键词】

：

聚类分析文档聚类算法特征项选取茎叶点图并行计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化的发展,以文档形式存在的信息记录,其数量越来越多,积累速度越来越快,类别也越来越丰富。对文档进行高效的利用是目前关注的重要热点。文档聚类分析就是对文档进行高效利用的重要方法。文档聚类算法根据文档的属性特征,对文档进行划分,即相似度高的文档聚集在同一类中,而不同类之间的文档则具有较低的相似度。本文对大规模文档聚类的关键技术开展了研究,提出了适合并行的无干预文档聚类算法,包括对主题词抽取、初始种子选择、文档聚类算法及其并行化等关键技术的研究。本文首先对文档聚类相关的关键技术研究现状进行了分析,总结了具有代表性的研究成果及其特点,并在此基础上开展了如下所示的研究工作。首先,提出了基于距离因子的主题词抽取方法和基于单连通最短路径图的初始种子选择方法。本文在传统的基于TF-IDF的特征项选择基础上,增加了距离因子。通过距离因子对特征项进行进一步的筛选和更有效的排序,从而从多个候选特征项中选择出最能够表达文档意义的特征项。在此基础上,通过词聚类进行主题词的类别划分,然后从聚类形成的不同类别中挑选出最有代表性的作为主题词抽取。在完成了文档主题词抽取后,本文进一步提出了基于单连通最短路径图的初始种子聚类方法,从而可以在密度大的区域进行初始种子选择,同时也可以将种子分散在数据空间,以选择出合适的初始聚类种子。其次,本文提出了基于茎叶点图(Stem-Leaf-Point Plot, SLPP)的文档聚类算法SLPPCA (SLPP Clustering Algorithm)。通过分析茎叶图的特点,并在茎叶图“茎”和“叶”的分类基础上,增加了“叶点对”,形成茎叶点图。在进行文档聚类时,首先对数据空间构造茎叶点图,形成初步的数据对象分类。在此基础上,通过对边界点的界定来构造边界点集合,并找到各数据区域的内部点集合。然后通过边界点集合和内部点集合来进行聚类。以茎叶点图为基础进行聚类,能够对数据集合进行预处理,将数据集合按照数据之间的相似性和差异进行分类。因此,SLPPCA能够自行计算出聚类数目,并无干预的完成聚类任务。再次,本文对并行处理环境下文档聚类的方法进行了研究。针对多核处理器当前研究与应用现状,以及多线程模型的特点,提出了对SLPPCA进行并行化的方法。其中,通过对串行SLPPCA步骤的剖析,将其可并行部分分解出来。同时,本文进一步提出了SLPPCA并行化的方法,将SLPPCA的并行与多线程关联起来,形成了SLPPCA的多线程并行优化。通过实现并行化多线程SLPPCA,使该模型对文档的聚类可以并行执行,提高了SLPPCA的执行速度,充分利用了新技术发展带来的丰富资源,实现了高效的文档聚类。最后,本文的研究工作针对文档聚类的特点,提出的基于距离因子TF-IDF的主题词提取方法；设计了基于单连通最短路径图的聚类种子选择；以及了基于茎叶点图的文档聚类算法；研究了SLPPCA算法的并行多线程优化。本文的理论研究工作在实验中得到了验证,实验结果表明本文的研究工作能够无干预的对大规模文档集合进行并行处理,提高了文档聚类的效率和质量,是一种高效的文档聚类算法。

其他文献

抗几何攻击的视视水印算法研究

随着多媒体技术与网络技术的迅猛发展,网络普及率大幅提高,人们可以方便快捷地下载、存储和分发多媒体信息。这给人们的娱乐生活带来便利的同时,也给多媒体作品的版权保护带

学位

数字水印压缩域视频水印实时性几何攻击鲁棒性几何不变

在同级审工作中构建财政审计大格局

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

预算执行审计同级审

论农村资金互助社的政府有限监管

合作金融与政府监管存在内生的冲突,农村资金互助社的独立自主性决定了政府对其监管应当是有限的。除非出于维护社会公共利益的需要而由政府对农村资金互助社进行监管,互助社

期刊

农村资金互助社独立自主政府监管有限监管

山西银行业金融安全人防管理效用研究

当前随着高新科技的不断发展,高科技安防设备如监控、语音求助、自动报警、消防中控等,几乎覆盖了银行每一个角落,在保障银行安全方面发挥着重要作用。但是,如果过分关注高科

期刊

山西银行业人防管理金融安全

学生实验用信号发生器设计探讨

学生使用对信号发生器的精度、功能等要求相对较低。利用ICL8038设计的信号发生器成本低、制作简单、取材方便、安装及调试简便、波形易实现,只需把硬件电路与软件程序相结合

期刊

学生信号发生器ICL8038students signal generator ICL8038

皖北地区人才生态环境建构研究

文章在对皖北地区人才生态环境优势与劣势分析的基础上,从着力营造开明开放的思想环境,建立和落实人才软环境建设领导责任制,着力营造诚实守信的信用环境,着力营造公平公正的

期刊

人才生态环境人才硬环境人才软环境

高温炭化对聚酰亚胺(PI)薄膜结构与性能的影响

研究了在氮气流保护下，聚酰亚胺薄膜在高温炭化过程中结构和性能的变化规律。用X射线衍射和元素分析对在不同温度炭化形成的样品的微晶结构和元素组成进行了研究，并对其导电性

期刊

聚酰亚胺薄膜炭化结构性能高温

移动式铣削机器人作业精度优化策略研究

学位

移动机器人铣削加工作业精度数控系统优化

扩频系统的Simulink仿真

会议

扩频仿真BPSKQPSK

适合并行的无干预文档聚类算法研究

其他学术论文