论文部分内容阅读
文本挖掘是数据挖掘的一个分支,它主要使用数据挖掘,机器学习,自然语言处理和信息检索技术,从文本集合中发现新的信息。文本挖掘是一个多样化的研究领域,文本分类是其中之一,在文本分类方面,语言的多样性必然要求有针对不同语言特征变化的处理技术。文本分类是一项困难的、有挑战性的研究方向,它需要良好的自然语言和通用语言处理技术。 许多机器学习的方法已经被提出去解决文本分类问题,但是大多数研究只应用于英语。与其它语言不同,越南语是一门用拉丁字符书写的独立语言。所以不可能机械地把处理其它语言的方法应用于越南语分类中。越南语拥有多样的语法和丰富的词库,还有广泛的特性:单词与单词之间不是按空格分隔,一个划分音节会出现在多个不同的单词中,一个单词能包含多个划分音节。这给越南语的文本分类带来了极大的挑战。这个问题中,后续步骤的处理依赖前面的处理结果,因此首要任务是研究一个高效的解决分词问题的方法,然而,迄今为止还没有研究成果能有效解决这个问题。 但是,现在有许多机器学习方法被成功应用于多种语言的文本分类上,包括在某些方面和越南语相似的日语、汉语,通过研究、继承、改进已有的相关技术,解决越南语的分类问题。本文研究了解决越南语文本分类问题的若干方法,得到了较好的结果。本文的主要贡献如下。 1.从越南语的网站上,采用网页内容获取技术,结合代码分析和自然语言处理的技术,获得相关文本信息。该方法基于一个假设,网站的超文本文档的标签都已经分析并创建成文档树,从树中能判断包含网页主要信息的节点,这些节点用自然语言处理,并给其赋予权值,最后建立了比较大的语料库,拥有10个粗粒度话题和20个细粒度话题做相关测试。这些工作为后期实验提供了不可忽略的实验条件。 2.分析研究了越南语分词的多种方法。这是在文本分类中起决定性作用的一步,值得一提的是,本文提出的分词方法结合了其它两种分词技术,词典最大匹配法和支持向量机模型。选择这种组合的原因是这两种方法可取长补短,可以解决模糊问题和未知单词识别问题,因此,这种组合是有效的。在测试中,能够通过对比其它算法说明该方法的高效性。在没有能测试的标准语料库、没有支持研究的完整的词典、没有绝对有效的分词工具的情况下,越南语的分词问题被成功解决了。这个解决方案是本文的主要研究成果,为今后深入研究越南语文本分类打下基础。 3.从大量的文本特征提取方法中,研究并选择出适合于进行越南语文本分类的方法,本文提出的方法在进行越南语特征提取时是有效的。 4.提出了一种灵活的解决越南语文本分类的方法,该方法通过忽略分词,采用统计语言 n-gram进行文本分类建模。尽管处理过程进行了简化,但结果却与机器学习得到的相当。该方法可以为处理越南语其它相关问题提供思路。 5.给出了越南语文本分类的解决方案,它能够有效的应用于越南语文本、越南语的信息查询等实际应用中。 以上研究成果将为今后研究与越南语文本处理相关的问题打下基础。