论文部分内容阅读
在自然语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而,对语料库加工质量检验方法的研究却很少。语料库分词质量的评价问题是汉语语料库的特有问题,已有的简单随机抽样的方法,当语料库规模变大时,无法精确估计分词质量评价中语料库样本的总体方差,同时,为了保证检验的精度,传统抽样方法的检验费用太高。 本文针对大规模语料库分词质量评价中存在的问题,提出了基于聚类的大规模语料库分词质量评价方法。该方法通过对语料库抽样样本进行聚类,实现对语料库抽样样本分词正确率的有效分层,然后对各层样本进行简单随机抽样。主要工作如下: a.研究语料库分词质量评价的抽样方法,采用改进的ISODATA聚类算法实现语料库样本的分层; b.给出语料库样本的结构化方法,用影响分词正确率的主要因素代表语料库样本向量; C.研究聚类中的样本相似性度量公式,采用改进的绝对值法计算。该公式既能反映样本向量间的距离,又能反应样本向量各分量之间的相关性; d.给出聚类结果的评价函数,根据该评价函数可以实现对聚类参数的有益指导,在聚类结束时还可根据评价函数值直接求得聚类所带来的增益。 与已有的简单随机抽样方法相比,本文提出的方法在大规模语料库分词质量评价时,有如下优点; a.通过聚类得到语料库抽样样本分词正确率的分层知识,进而在检验中运用分层抽样带来的增益减少检验的费用: b.用聚类后得到的语料库分词正确率的类别知识很好地解决了语料库分词正确率的方差估计问题。