论文部分内容阅读
由于信息的传播量及传播速度之快速增长,互联网上的资源呈爆炸式的增长,人们被各种各样的海量信息包围着,却不知道从何入手才能快速找到急需的信息。如何有效组织和管理这些大量信息,分门别类的存放,用户能够各取所需信息,已经成为了当前信息科学与技术的一大挑战。文本分类作为信息组织和管理的关键技术,帮助人们高效的定位信息,因此对其技术的要求也变得越来越高。传统的文本分类方法大多是采用词向量空间模型的表示方法,认为构成文本的关键词之间彼此独立,没有语义关联,导致了大量语义信息的丢失,得到的特征向量不能很好的表示文本的内容,从而影响了分类的效果。而实际上,构成文本的特征项之间包含一定的语义关联,如同义关系,上下位关系等。为解决这一问题,随着语义网的出现,人们提出了语义驱动的文本分类方法。本体因其良好的概念层次结构,能够清晰的表达概念之间的关系而被广泛的使用实现基于语义的文本分类。然而,目前基于本体的文本分类方法研究尚在起步阶段,还存在一些不足:对本体的使用大多只停留在词典的层面上,未深入挖掘特征项和概念之间的语义关系;文本表示模型仅映射到本体的概念,不考虑描述概念之间关系的属性和实例;大多算法都忽略了本体的一个最重要优势—推理机制。本文在充分研究传统方法和基于本体的分类方法研究现状后,对存在的问题进行改进,主要的工作如下:(1)本文介绍了本体的相关知识及构建的原则和方法,并重点介绍OWL2描述语言以及本文采用此种语言编码的原因。详细介绍了旅游领域本体的构建过程。同时还对文本分类过程的关键技术进行介绍,包括文本分类定义,文本表示,特征抽取和选择,常用的分类器等。(2)文本分类中文本表示模型的好坏直接影响到分类的结果。为实现在语义的层面上进行文本分类,本文基于概念映射方法将传统的词向量空间模型转换成概念向量空间模型,不仅映射到本体的概念,还包括本体的属性和实例,尽可能的保留文本特征词之间的语义关系。由于概念是包含更多语义信息的特征项,传统基于统计的权重计算方法不能很好的代表概念的语义,因此本文提出一种对传统TFIDF权重计算的改进方法,为信息丰富的本体概念赋予更高的权重。(3)由于传统机器学习分类器的计算复杂性,且易受训练文本数量大小的影响,因此本文以领域本体自身层次结构作为分类的体系,提出一种特征项与本体概念之间的语义关联度计算方法,并在此基础上计算整篇文本到每个概念类别的隶属度。最后通过实验表明,该计算方法比使用贝叶斯和最近邻分类器方法获得更高的准确率。(4)为充分挖掘本体对分类的指导作用及提高分类的效率,本文的分类方法还结合了本体的推理规则,利用本体的推理机制挖掘出本体中更多的隐含知识。这些隐含知识对分类有一定的指导作用,从而减少了计算开销。实验表明,结合推理规则的分类方法比不使用推理规则的方法效率更高。(5)本文以旅游领域为背景,通过爬虫抓取旅游信息相关的网页,利用本文提出的计算方法实现对旅游网页文本的分类。给出了各个模块的具体流程,包括预处理,概念空间模型的生成,分类过程等。最后给出实验对比的分析与总结。