基于词袋和N-Gram统计语言模型的越南语文本分类研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：sheep0211

【摘要】

：

文本挖掘是数据挖掘的一个分支，它主要使用数据挖掘，机器学习，自然语言处理和信息检索技术，从文本集合中发现新的信息。文本挖掘是一个多样化的研究领域，文本分类是其中之一，在文本

【作者】

：

豆孟寰

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2015年期

【关键词】

：

越南语文本分类话题粒度机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本挖掘是数据挖掘的一个分支，它主要使用数据挖掘，机器学习，自然语言处理和信息检索技术，从文本集合中发现新的信息。文本挖掘是一个多样化的研究领域，文本分类是其中之一，在文本分类方面，语言的多样性必然要求有针对不同语言特征变化的处理技术。文本分类是一项困难的、有挑战性的研究方向，它需要良好的自然语言和通用语言处理技术。　　许多机器学习的方法已经被提出去解决文本分类问题，但是大多数研究只应用于英语。与其它语言不同，越南语是一门用拉丁字符书写的独立语言。所以不可能机械地把处理其它语言的方法应用于越南语分类中。越南语拥有多样的语法和丰富的词库，还有广泛的特性：单词与单词之间不是按空格分隔，一个划分音节会出现在多个不同的单词中，一个单词能包含多个划分音节。这给越南语的文本分类带来了极大的挑战。这个问题中，后续步骤的处理依赖前面的处理结果，因此首要任务是研究一个高效的解决分词问题的方法，然而，迄今为止还没有研究成果能有效解决这个问题。　　但是，现在有许多机器学习方法被成功应用于多种语言的文本分类上，包括在某些方面和越南语相似的日语、汉语，通过研究、继承、改进已有的相关技术，解决越南语的分类问题。本文研究了解决越南语文本分类问题的若干方法，得到了较好的结果。本文的主要贡献如下。　　1.从越南语的网站上，采用网页内容获取技术，结合代码分析和自然语言处理的技术，获得相关文本信息。该方法基于一个假设，网站的超文本文档的标签都已经分析并创建成文档树，从树中能判断包含网页主要信息的节点，这些节点用自然语言处理，并给其赋予权值，最后建立了比较大的语料库，拥有10个粗粒度话题和20个细粒度话题做相关测试。这些工作为后期实验提供了不可忽略的实验条件。　　2.分析研究了越南语分词的多种方法。这是在文本分类中起决定性作用的一步，值得一提的是，本文提出的分词方法结合了其它两种分词技术，词典最大匹配法和支持向量机模型。选择这种组合的原因是这两种方法可取长补短，可以解决模糊问题和未知单词识别问题，因此，这种组合是有效的。在测试中，能够通过对比其它算法说明该方法的高效性。在没有能测试的标准语料库、没有支持研究的完整的词典、没有绝对有效的分词工具的情况下，越南语的分词问题被成功解决了。这个解决方案是本文的主要研究成果，为今后深入研究越南语文本分类打下基础。　　3.从大量的文本特征提取方法中，研究并选择出适合于进行越南语文本分类的方法，本文提出的方法在进行越南语特征提取时是有效的。　　4.提出了一种灵活的解决越南语文本分类的方法，该方法通过忽略分词，采用统计语言 n-gram进行文本分类建模。尽管处理过程进行了简化，但结果却与机器学习得到的相当。该方法可以为处理越南语其它相关问题提供思路。　　5.给出了越南语文本分类的解决方案，它能够有效的应用于越南语文本、越南语的信息查询等实际应用中。　　以上研究成果将为今后研究与越南语文本处理相关的问题打下基础。

其他文献

俞正声:以身作则分类指导务求实效

最近,中共中央政治局委员、湖北省委书记俞正声在接受《光明日报》记者采访时说:开展先进性教育活动关键是省委和各级党委要在以身作则、分类指导、务求实效这三个方面下真功

期刊

分类指导干部以身作则率先垂范教育活动湖北省委书记基层组织中冲组织广泛

短视频在党报融媒体报道中的创作途径与应用

本文以短视频为切入点,对短视频在党报融媒体报道中的创作途径与应用进行探究与分析,希望能够促进短视频在党报融媒体报道中体现自身价值,优化创作途径.

期刊

短视频党报融媒体报道创作途径

基于视频的交通流信息的采集及其嵌入式实现

实时交通流数据的采集在智能交通系统中起着重要的作用。交通流检测有多种方式,而基于图像处理的视频检测方式近年发展很快,它具有大区域检测、设置灵活等优越性,已成为智能

学位

智能交通系统图像处理虚拟检测线交通流信息检测嵌入式系统

入侵检测分析技术的研究与应用

入侵检测是一种动态监控、预防或抵御系统入侵行为的安全机制，已经成为动态安全工具的主要研究和开发的方向。入侵检测系统能在入侵攻击对系统发生危害前，检测到入侵攻击，并

学位

入侵检测安全机制网络安全模式匹配数据挖掘协议分析

高校在国家助学贷款中的风险和对策研究

国家助学贷款是为了帮助家庭经济困难学生顺利完成学业而推行的一项惠民政策。高校是国家助学贷款的落实者和执行者,其积极性的高低将直接影响到助学贷款能否顺利推行。本文

期刊

高校国家助学贷款风险对策

探究融媒体时代下提升新闻采编工作的路径

在2018年全国宣传思想工作会议上,习近平总书记提出了举旗帜、聚民心、育新人、兴文化、展形象的使命任务,强调统一思想、凝聚力量是宣传思想工作的中心环节,为做好新形势下

期刊

全国宣传思想工作会议宣传理论融媒体时代新闻采编

高校院系和谐团队建设的研究与实践

高校院系作为社会的组成部分,作为担负培养人才重任的重要基地,要积极建设好高校院系和谐团队.本文从构建高校院系和谐团队的途径入手,探讨为实现这一目标,要加强沟通和交流,

期刊

高校院系和谐团队以人为本

智媒体时代,精品意识仍是广播电视生存的基本法则

随着社会的进步和科技的发展,广播电视等传统传播方式面临着巨大的挑战,本文就传统媒体的节目要如何面对今后层出不穷的挑战与竞争中生存并发展起来进行了研究和探索,并就传

期刊

精品意识基本法则融合

精彩奥帆全景呈现——青岛电视台倾力播报2008奥帆赛盛况

8月8日,举世瞩目的第29届奥林匹克运动会在北京开幕,同时,奥运会帆船比赛也在青岛激情上演。百年奥运与百年青岛结缘,在这光荣与梦想终于实现的时刻,作为青岛主流媒体的青岛

期刊

青岛电视台帆船比赛奥林匹克运动会全景直播报道全部第一平台电视观众

高校新生自身心理特征以及对策分析

[摘要] 对高校新生自身心理特征加以分析，指出了高校新生心理特征形成的具體原因，结合高校新生心理特征，探讨了高校新生应对心理失衡问题的对策。　　[关键词] 高校新生；心理特征；对策　　[中图分类号] G644 [文献标志码] A [文章编号] 1008-2549（2018） 03-0095-02　　在长期对大学生的心理以及成长过程关注与研究之后得出，新生刚入学阶段，均需要经历相应的适应过程，在心

期刊

高校新生心理特征对策

基于词袋和N-Gram统计语言模型的越南语文本分类研究

其他学术论文