中文文本分类的研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:cs444444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和飞速发展,网络资源已经成为一个普遍全球的信息宝库,使得人类全部的信息资源以前所未有的方式和程度在全球内互相连通,它作为一个开放的分布式的信息空间,网络中的信息量也以指数的速度增长。如何利用计算机进行智能化的信息处理成为近几年来研究的热点和焦点。由于侧重点的不同,我们可以将其分为如下几个领域:信息检索、信息提取、文本分类、文本摘要等研究领域,其中文本分类是一个广为关注的课题,这项技术有很广的市场应用价值。   文本表示是进行文本分类研究的前提。我们常用的文本表示的方法有基于向量空间的文本表示方法和基于统计语言模型的文本表示方法。特征提取和文本表示方法是影响文本分类器两个重要因素。如何选取特征,用什么样的方式将其表示出来直接影响到文本分类器的速度和性能。   在数据挖掘的诸多方法中,我们首先对基于向量空间的几种常用分类方法(布尔模型、向量空间模型、BP神经网络),进行实验和性能比较。并通过实验分析出向量维数、阈值等参数设置对各类模型的影响,为各种分类算法的改进提供了理论依据。   在基于统计语言模型的文本分类方法中,本文主要研究了最大模型和决策树模型。ID3算法是信息过滤中采用较广泛的方法。在对ID3算法学习分析研究的基础上,实现了一个基于ID3算法的决策树分类程序,该程序可以对中文信息进行有效的分类。此外,该程序还可以从分类数据中提取分类规则,这些规则可以根据需要进行增加、删除和修改。实验结果表明决策树分类器确实是一种有效的分类技术。本文还提出了一种改进的ID3算法,以调高运算率。   齐普夫定律首次揭示了西方语系中词频和词序号关系,有很广的应用价值。本文实现了一个词频统计程序,通过对中文词频的统计验证了齐普夫定律同样适用于中文词的分布。同时提出了齐普夫定律参数的估计方法和参数适应性验证方法。
其他文献
企业电子文档属于企业的重要资源,是企业核心竞争力的具体表现形式。其主要包括企业的合同,项目文档以及待发专利等。在激烈的知识竞争中,由于核心电子文档的泄露,导致企业的
三角网格模型的建模和绘制,在计算机图形领域内受到众多研究者的关注。在研究三角网格模型的工作中,首要任务就是要解决顶点数据的压缩和绘制。本文根据现代可编程图形处理器
无线传感器网络具有广泛的应用背景,目前已经发展成为一个重要的计算平台。但是,无线传感器网络自身的特点使其也面临许多问题。如何有效地进行覆盖控制,并且在保证网络覆盖
如今,软件结构复杂性的日益增加直接导致了软件系统故障的复杂性增加,开发和维护过程成本加大。在不同粒度的不同层次对软件体系结构进行故障特性分析,可以有针对性地为软件可靠
Web服务和语义技术相结合的语义Web服务技术在万维网发展中有着光明的前途,但当前技术仍不成熟,服务发现机制仍是急待探讨的问题之一。基于语义Web的服务发现是语义Web服务的
随着社会经济的快速发展,制造企业往往使用供应链系统来优化生产和管理过程,达成企业动态联盟来参与激烈的市场竞争。但市场环境瞬息万变,为了提高竞争力,企业必须及时重构供
下一代网络是个业务驱动的网络,它发展的关键之一在于能否快速、有效地提供新业务。因此应该提供多种有效的业务提供方式,以便使客户可以选择更加适合自己的业务提供方式,更