贝叶斯层次聚类及其在文本挖掘中的应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:XIAOZHOU914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值.该文对文本数据挖掘中的一种重要方法--聚类分析进行了广泛而深入的探讨.通过对以文本数据为代表的高维特征空间特点的分析,该文主要从概率角度,特别是用贝叶斯方法,来研究文本数据的聚类分析.该文的研究工作主要集中在以下几个方面:1)基于文档信息量变化的概率层次聚类.2)贝叶斯模型选择在聚类分析中的应用.3)无监督学习中聚类准确度的评价.4)高维特征空间中的特征约简.
其他文献
该文认真分析了目前中国低压电力系统的特点、状况及发展前景,在此基础上,提出以现有的配电屏为具体对象进行信息化改造,通过微电子技术的应用,提高低压系统的综合保护能力,
通过该课题的研究同时解决了几个问题.首先解决了大庆油田分布在各个单位的各种各样的现有的图形的数字化和图形数据库的建设的问题;对于多个人共用一台计算机的网络、数据库
本文主要讨论了基于LonWorks可视化组态控制、监视系统的实现原理,并进一步详述了组态监视系统的设计与实现过程。系统的下位机采用动态组合Neuron C函数模块的方式实现控制程
该文研究了三维人体曲面造型和多分辨率分析,将Gouraud明暗处理方法用于三维人体造型,并提出基于顶点法矢平均加权求和的渲染方法,取得更好的真实感显示效果.将细分二次B样条
随着网络通信业务从电话、数据向视频、多媒体等宽带业务方向的发展,以Internet为代表的网络技术正日益成为国家信息基础设施的重要组成部分,并已渗透到社会、经济、生活的各个
该文提出了一套新的基于Eip集成方法,包括数据的集成和应用的集成.数据集成是该方法的重点.传统的数据语言和视图机制在进行异构数据应用的数据传输和组织时效率较低,有时甚
学位
该文讨论了一个结构活网的活标识的配置问题,通过对网中所含有的冲突结构的分析,首先详细讨论了不含冲突结构的结构活网的活标识别的配置和标识的单调性研究,并得到该类Petri
本论文在邮政电子汇兑系统的网络实现的技术上具有较大的实用价值,应用网络技术的研究成果给实践以指导,使得该具有实际意义的系统得以实现。 在邮政电子汇兑系统的网络工程
现有的form技术已经过时,满足不了一些新的Web应用的需要.W3C(WorldWideWebConsortium)已经开始制定下一代Form规范--XForms.XForms建立在XML规范以及其他与XML技术相关的规范