论文部分内容阅读
随着信息技术的发展,以信息为核心的用户需求促进了文本数据挖掘前所未有的飞速发展。高效的分类、标志、组织相关信息的文本挖掘方法受到广泛关注,以频繁模式挖掘为基础的结构化模式挖掘、关联规则分类和基于模式的聚类等相关软件与算法也成为重要的研究主题。然而,数据量增加、数据组织结构复杂让人们不再满足于如何在庞大的数据源中快速准确的定位关键数据,分析关键数据背后的隐含信息与数据集的结构关系也具有重要意义。本文着眼于文本数据挖掘和分析,对基于频繁模式挖掘的模式语境分析方法进行了研究和讨论。基于频繁模式的语境分析是模式挖掘结果的再处理,与基于模式的分类、聚类等统称为模式挖掘研究的应用。模式语境分析通过挖掘模式隐含的更深层次信息,在数据单元的统计学相关性基础上为不同粒度的数据单元建立联系,为数据分析、分类、解释提供支持。使用语境模型为频繁模式自动生成语义注解(SPA)是语境建模研究的新内容SPA是一种自动的、无指导的过程。相比于传统模式挖掘过程中获得的模式支持度、置信度等静态信息,模式语境则关注于模式与数据集的联系,在此基础上构建模式与模式间、模式与事务间的相似度关系。本文深入分析了模式语境建模的具体过程、相关的算法和模型的特征与局限性,包括单一模式的语境模型只能满足文本分析的部分需求,对于事务等由多个模式构成的数据单元的分析依旧缺乏相关的定义及有效的方法。同时,文本语义分析过程中的模式一词多义现象带来的挑战,这种局限性表现在非频繁模式语义注解时受到数据噪音的干扰较大。因此,本文在SPA方法基础上提出了多个模式组合的语境建模方法(mPCA)。该方法从向量空间模型的角度讨论了模式组合的语境模型计算,并给出了四种模式组合语境的定义:均值语境、最值语境、熵值语境和选值语境。并且,对它们的定义及特征进行了讨论,给出了相关的推论及证明过程。在此基础上提出了一种更完整的语境分析过程,介绍了语境描述集的概念和构造方法,为不同应用场景提供参考。最后,使用两种不同性质的文本数据集对mPCA方法及语境分析过程进行测试。实验结果表明,mPCA方法能够适应不同长度的模式组合语境建模,同时,使用mPCA对事务进行文本语义分析时获得的结果优于SPA、TF-IDF及LCS方法,mPCA方法和TF-IDF方法的对照实验表明,mPCA方法受到词频局限性影响更小,构造的事务语境向量比TF-IDF构造的文档特征向量获得更好的实验结果。并且,在不同复杂程度和大小的数据集上进行实验均表明mPCA能够获得较好的实验结果。这表示mPCA获得的多个模式组合及事务的语境分析过程中能够较大程度上保留核心语义,并且,mPCA实现了降低模式检索空间的维度的同时不影响模式语义携带能力,甚至提高语境模型语义携带能力的目的。