基于N—gram信息的中文文档分类研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:rongxiaokun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。
其他文献
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径
针对CJKOutline字体在存储量上存在的不足 ,本文提出一种结构式压缩算法。算法对CJK字体进行集合变换 ,得到笔划集合元素 ;并利用聚类算法得到模板笔划 ;对相似数据进行统一存储与调用。同时 ,本文还提出了一种基于笔划段的笔划抽取算法 ,从图论角度实现了集合变换。结果显示 ,算法取得了较好的效果 ,而且适用于多种字体
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比.这个模型比传
心理语言学的认知发展过程证明在语言获得的早期经历了一个自主的归纳学习过程,本文的出发点是语言发展的规律,并将词结构形语义的获得和表示基础放在一个具有统一的语言理解和
本文给出了一个基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL(Restrictive Chinese Query Language)及其实现方案,系统模拟人脑对语言处理的并行机制,将中