基于词袋和N-Gram统计语言模型的越南语文本分类研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:sheep0211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是数据挖掘的一个分支,它主要使用数据挖掘,机器学习,自然语言处理和信息检索技术,从文本集合中发现新的信息。文本挖掘是一个多样化的研究领域,文本分类是其中之一,在文本分类方面,语言的多样性必然要求有针对不同语言特征变化的处理技术。文本分类是一项困难的、有挑战性的研究方向,它需要良好的自然语言和通用语言处理技术。  许多机器学习的方法已经被提出去解决文本分类问题,但是大多数研究只应用于英语。与其它语言不同,越南语是一门用拉丁字符书写的独立语言。所以不可能机械地把处理其它语言的方法应用于越南语分类中。越南语拥有多样的语法和丰富的词库,还有广泛的特性:单词与单词之间不是按空格分隔,一个划分音节会出现在多个不同的单词中,一个单词能包含多个划分音节。这给越南语的文本分类带来了极大的挑战。这个问题中,后续步骤的处理依赖前面的处理结果,因此首要任务是研究一个高效的解决分词问题的方法,然而,迄今为止还没有研究成果能有效解决这个问题。  但是,现在有许多机器学习方法被成功应用于多种语言的文本分类上,包括在某些方面和越南语相似的日语、汉语,通过研究、继承、改进已有的相关技术,解决越南语的分类问题。本文研究了解决越南语文本分类问题的若干方法,得到了较好的结果。本文的主要贡献如下。  1.从越南语的网站上,采用网页内容获取技术,结合代码分析和自然语言处理的技术,获得相关文本信息。该方法基于一个假设,网站的超文本文档的标签都已经分析并创建成文档树,从树中能判断包含网页主要信息的节点,这些节点用自然语言处理,并给其赋予权值,最后建立了比较大的语料库,拥有10个粗粒度话题和20个细粒度话题做相关测试。这些工作为后期实验提供了不可忽略的实验条件。  2.分析研究了越南语分词的多种方法。这是在文本分类中起决定性作用的一步,值得一提的是,本文提出的分词方法结合了其它两种分词技术,词典最大匹配法和支持向量机模型。选择这种组合的原因是这两种方法可取长补短,可以解决模糊问题和未知单词识别问题,因此,这种组合是有效的。在测试中,能够通过对比其它算法说明该方法的高效性。在没有能测试的标准语料库、没有支持研究的完整的词典、没有绝对有效的分词工具的情况下,越南语的分词问题被成功解决了。这个解决方案是本文的主要研究成果,为今后深入研究越南语文本分类打下基础。  3.从大量的文本特征提取方法中,研究并选择出适合于进行越南语文本分类的方法,本文提出的方法在进行越南语特征提取时是有效的。  4.提出了一种灵活的解决越南语文本分类的方法,该方法通过忽略分词,采用统计语言 n-gram进行文本分类建模。尽管处理过程进行了简化,但结果却与机器学习得到的相当。该方法可以为处理越南语其它相关问题提供思路。  5.给出了越南语文本分类的解决方案,它能够有效的应用于越南语文本、越南语的信息查询等实际应用中。  以上研究成果将为今后研究与越南语文本处理相关的问题打下基础。
其他文献
实时交通流数据的采集在智能交通系统中起着重要的作用。交通流检测有多种方式,而基于图像处理的视频检测方式近年发展很快,它具有大区域检测、设置灵活等优越性,已成为智能
入侵检测是一种动态监控、预防或抵御系统入侵行为的安全机制,已经成为动态安全工具的主要研究和开发的方向。 入侵检测系统能在入侵攻击对系统发生危害前,检测到入侵攻击,并
[摘 要] 对高校新生自身心理特征加以分析,指出了高校新生心理特征形成的具體原因,结合高校新生心理特征,探讨了高校新生应对心理失衡问题的对策。  [关键词] 高校新生;心理特征;对策  [中图分类号] G644 [文献标志码] A [文章编号] 1008-2549(2018) 03-0095-02  在长期对大学生的心理以及成长过程关注与研究之后得出,新生刚入学阶段,均需要经历相应的适应过程,在心