中文文本自动分类系统研究—汉语分词及分类器的设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qiu829
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,具有很重要的现实意义,对电子政务、联机出版、网络信息检索与服务、公共电子图书馆和大规模真实语料库的建设等领域更具有广阔的应用前景。本文从面向应用、面向大规模、面向真实文本等实际需求的角度出发,从以下几个方面展开了对中文文本自动分类系统的研究:首先是汉语自动分词技术的研究,包括词语粗切分、未登录词识别、词性标注排歧等。在词语粗切分中,我们综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分;在未登录词识别中,我们分别对数词短语、叠字词、名字的识别提出了不同的识别方法。其中,在对名字的识别过程中,我们采用了Viterbi算法,确定句中概率最大的上下文信息状态序列,并结合文本的局部统计量,对人名、地名、译名进行匹配识别;而对于词性的标注排歧,我们是采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行的。其次是关于分类器的设计方面,我们着重解决了特征词的抽取、文本的表示、采用支持向量机方法对分类器的设计实现。对于特征词的抽取,我们是根据香农信息学的理论,从每类文本集的高频词词库中去掉停用词词库中的词,得到每类对应的类型词词库,在此基础上设计特征词加权函数进行特征词的抽取和加权;而文本的表示问题,我们采用的是基于向量空间模型的数字化表示方法,利用文本的特征单元形成向量空间,文本最后被形式化为N维空间的一个向量D;在分类器的设计实现中,我们根据各类别文本数据间的特点,提出了一种在线性可分支持向量机的基础上,根据训练学习中拒识样本数的信息,给其最优分类面中加入了一个松弛项η的改进方法,实现了一个基于支持向量机方法的文本分类器,并取得了较为满意的分类效果。
其他文献
伴随着微电子技术和信息技术的迅猛发展,越来越多的电子设备将向微型化方向发展。这些设备不光要具有计算功能,而且还要有良好的用户界面和网络接人功能,它们实际上将会逐步
随着计算机技术的不断发展,人们对数据可靠性和应用可用性的要求不断提高,高可用容灾系统也随之出现.该文首先介绍了高可用容灾系统的集群实现方法,重点介绍高可用集群的三种
多变量公钥密码在近些年得到了快速地发展,由于可以抵抗量子攻击,其被认为是传统公钥密码体制的一种替代方案。目前已经设计出多种多变量公钥密码体制,例如MI加密体制,油醋签名体
网络计算机(NC)系统,以其总体拥有成本(TCO)低,安全性、稳定性高等优点正在被越来越多的用户所接受.与此同时,Internet网络技术的发展和局域网的普及,基于Web的应用大量部署,
基于网络的数字监控录像系统使用分辨率高的摄像机、稳定的网络、高速的处理器及大容量的存储设备,其录像具有准确、实时、灵活、完整的特点,目前银行部门普遍采用了这种系统
1993年,台湾学者W. L. Gau和D.J.Buehrer提出了Vague集理论,Vague集理论是对Fuzzy集理论的推广.由于Vague集是"双模糊",因此我们认为在模糊数学理论中只要把Fuzzy集理论的隶
该论文主要研究柔性织物动态仿真中的算法以及碰撞检测技术.对柔性织物的数学建模、运动微分方程的数值解法以及柔性织物的碰撞检测技术三个方面进行了深入的研究.柔性织物的
当前中国许多政府部门都开展了电子政务工程,办公自动化已成为提高政府办公效率的手段之一.目前的办公自动化系统主要基于工作流的方式,对政府部门中的公文进行电子流转,体现
在计算机网络中,组播技术是发送者将数据同时发给多个接收者的重要通信方式,它主要用于音频/视频会议、远程教学等分布式、实时多媒体应用的通信。随着多媒体技术的迅速发展,Inte
基于图像的信息安全技术是目前图像工程领域中的研究热点,近年来受到了研究者的广泛关注,其主要包括两个方面的研究内容:基于数字水印技术的图像或视频加密与版权保护以及基于生