中文文本分类研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:duyalengp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类和聚类是现代搜索引擎设计的重要计算,也是在数据处理、数据挖掘等应用中的关键计算。因此对文本分类和聚类技术研究不仅具有重要的理论意义,而且具有广阔的应用领域。随着国际互联网的普及和目前针对Web网页的信息检索技术的研究,对文本分类和聚类的研究已经不仅仅是文本文件,对Web网页的分类和聚类已经成为新的研究热点。本论文在研究对一般文本的分类和聚类算法以及实现技术的同时,也专门研究对Web网页的分类和聚类算法及实现技术。本文的主要贡献是:1)深入地研究了对文档特征的提取方法和文档分类方法,通过比较,分析了各种方法的优缺点。在此基础上,对传统的支持向量机分类法进行了改进。对传统的支持向量机中的核函数进行了组合的研究,提出了由径向基核函数(RBF)和多项式核函数(POLY)组合成的新的核函数。实验表明支持向量机在组合后的核函数下能取得更好的分类效果。2)基于对传统的特征选取方法和文本分类方法的分析,针对Web网页具有半结构化的特点,提出了一种结合结构信息和内容的对Web网页按层次进行分类的方法,克服了传统分类中轻视或忽略了Web网页的结构信息的不足。其主要思路是利用Web网页的结构信息对网页进行大类层次上的粗分,然后利用网页中的全文信息再进行细分。实验结果表明,该层次分类方法能有效地提高分类的精度和效率。3)本文对多分类器的组合问题进行了初步研究,提出了用Naive Bayes组合两种分类器对Web网页进行协调分类的方法,实验结果显示这是协调超文本分类中多种分类器的一种有效方法。与只用单种方法对超文本进行分类相比,综合分类法有效地提高了分类的正确率。本论文的组织如下:在第1章中介绍了文本自动分类在国内外的研究现状。第2章给出了文本分类的基本概念、经典的理论模型、特征提取技术、分类模型以及我们改进的支持向量机模型,并给出我们算法和K-最近邻(KNN)算法以及朴素贝叶斯算法的比较。第3章介绍了我们基于分类法、Web网页的结构信息和内容信息的层次分类方法;并通过实验验证我们算法的有效性。第4章讨论了多分类器的组合问题的研究。第5章总结了全文。
其他文献
目前,鱼眼镜头被广泛地应用到群组视频会议、大范围监控系统、智能交通系统、全景浏览及球面电影等领域。但鱼眼镜头摄像机拍摄的图像具有非常严重的变形,如果要利用这些具有严
无线传感器网络(WSN,Wireless Sensor Network),由大量的传感器构成,这些传感器包括计算、感知和通讯模块。它们协作地感知、采集、处理和传输网络覆盖地理区域内被感知对象
无线传感器网络是由大量智能传感器节点以无线通信方式融合在一起,并能对周围的某些物理现象进行协同感知的自组织网络。目标跟踪是无线传感器网络的重要应用,目前基于无线传
计算机系统和网络的高速发展以及各行业信息化的趋势,使得网络安全问题成为当前计算机发展的重要议题。能够将不同网络安全设备结合起来,并产生1+1>2合力的网络安全联动系统应
伴随着软件开发技术的发展,在多层的软件开发项目中,可复用易扩展的,而且是经过良好测试的软件组件,越来越为开发者所青睐。这意味着开发人员可以将充裕的时间用在分析、构建
随着互联网应用的发展,越来越多的软件系统以网络应用和服务的形式出现。各种形式的网络环境以及运行于其中的各式应用和服务,组成了形式各异的分布式系统。如何使各种网络应
在传统的政务办公系统中,业务过程的控制总是采用硬编码的方式,使得流程处理代码与业务逻辑代码紧密耦合,导致软件开发效率低下,系统响应业务流程变化十分艰难。这些明显的缺
学位
目前,科学计算可视化是图形学的一个热点研究方向。切剖功能作为科学计算可视化的核心和关键功能之一广泛地应用于自然科学和工程的各个方面。矢量图形由于适合表达各种物体
无线传感器网络工作在一个开放、合作和高度任意的环境中,具有节点间链接脆弱、节点完全暴露在物理环境中、拓扑结构动态变化、身份认证缺乏等特性,使得无线传感器网络存在许