论文部分内容阅读
近年来,由于计算机与网络技术的迅速发展,大量的数据信息不断涌现,怎样把这些数据信息变换为有用的知识越来越受到人们的关注。因此,有关数据挖掘、知识管理方面的研究越来越广泛,其应用也越来越深入。
数据挖掘,总的来说,可以概括为一个在数据中发现模式的过程。传统的数据挖掘技术认为数据的属性和值都是独立的,这一假设让数据挖掘的理论分析很容易被理解,但在很多实际情况中这一假设并不适用,数据的属性和值并不独立,而是存在一定的关联。因此,将这种关联用网络或者图的形式加以描述是一种既直观明了又饱含语义信息的挖掘方式,可以称之为“基于网络模型的数据挖掘”。
本文的研究正是采用了这种基于网络模型的数据挖掘方法,从领域语料库中发掘领域重要词语之间的关联意义,具体地,以复杂网络的相关理论为基础,分析研究从领域语料库中建立的词语共现网络,进而发现有用的知识。研究首先从领域文本语料中提取出人名、机构名及描述领域关键概念的词语;接着以句子为语义单位统计这些词语的共现信息并按一定规则构建词语共现网络;最后论文从复杂网络的相关理论出发,分析该词语网络的结构属性特征,揭示出词语网络的小世界及无尺度结构,探讨并实践了挖掘该词语网络的核心节点的四种方法,进一步从网络结构的角度来计算词语之间的关联度,并基于网络结构划分的概念实现了词语的聚类。实验结果表明使用这种有别于向量模型的方法来分析领域文本语料,尽可能地保留了词语之间的语义信息,具有一定的可行性及借鉴意义。特别地,本文基于网络模型来挖掘教育信息化领域文本语料,可以发现教育信息化领域相关词语的使用情况,获取教育信息化领域的热点词语,计算词语在语料中的关联度,实现词语的聚类。