大规模语料库分词质量评价方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:baishe654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而,对语料库加工质量检验方法的研究却很少。语料库分词质量的评价问题是汉语语料库的特有问题,已有的简单随机抽样的方法,当语料库规模变大时,无法精确估计分词质量评价中语料库样本的总体方差,同时,为了保证检验的精度,传统抽样方法的检验费用太高。 本文针对大规模语料库分词质量评价中存在的问题,提出了基于聚类的大规模语料库分词质量评价方法。该方法通过对语料库抽样样本进行聚类,实现对语料库抽样样本分词正确率的有效分层,然后对各层样本进行简单随机抽样。主要工作如下: a.研究语料库分词质量评价的抽样方法,采用改进的ISODATA聚类算法实现语料库样本的分层; b.给出语料库样本的结构化方法,用影响分词正确率的主要因素代表语料库样本向量; C.研究聚类中的样本相似性度量公式,采用改进的绝对值法计算。该公式既能反映样本向量间的距离,又能反应样本向量各分量之间的相关性; d.给出聚类结果的评价函数,根据该评价函数可以实现对聚类参数的有益指导,在聚类结束时还可根据评价函数值直接求得聚类所带来的增益。 与已有的简单随机抽样方法相比,本文提出的方法在大规模语料库分词质量评价时,有如下优点; a.通过聚类得到语料库抽样样本分词正确率的分层知识,进而在检验中运用分层抽样带来的增益减少检验的费用: b.用聚类后得到的语料库分词正确率的类别知识很好地解决了语料库分词正确率的方差估计问题。
其他文献
人脸检测问题最初作为自动人脸识别系统的定位环节被提出,近年来由于其在安全访问控制、视觉监测、基于内容的检索和新一代人机界面等领域的应用价值,开始作为一个独立的课题受
人脸识别是一项极富挑战性的课题。传统方法需要极其繁多的前期工作和识别阶段的诸多限制,因而不论从理论上还是在实际应用中都极为困难。本文把遗传算法应用于人脸识别的分割
在软件开发过程中,开发人员通过复制粘贴既有代码向系统中引入大量的克隆代码。克隆代码会随着时间和软件系统更新而进行演化,使软件系统变得越来越臃肿、难以维护,从而影响了软
近年来,模糊神经网络以其广义的函数逼近能力,已经受到了广泛的关注。在模糊神经网络的研究中,参数学习问题具有很大的重要性。一般来说,对模糊神经网络的参数学习问题可以转化为
本文论述了MES的定义及其实质、MES的定位模型和其十一项功能,深入分析它与计划层和控制层的关系,并阐述了MES在行业应用中的特点。在分析济钢中厚板厂生产现状及其存在的问题
本系统主要是利用清分机、扫描仪等图像采集设备,使用OCR技术、验印技术、海量存储技术等规范票据处理流程,实现了银行票据的自动化处理,从而达到减员增效、加强会计核算管理
随着电子邮件、网络通讯、电子商务等网络行为日益走入人们的生活,接入宽带网络正成为嵌入式终端设备的一个基本要求。嵌入式终端的流行改善了人们的生活方式,提高了工作效率
随着信息自动化科技发展,各种硬、软自主机器人的应用领域正在不断扩大,从而对机器人的能力提出了越来越高的要求.一方面,自主机器人的应用环境正由传统的静态、确定环境向实
光纤布拉格光栅(FBG)是国际上新兴的一种在光纤通讯、光纤传感等光电子处理领域有着广泛应用前景的基础性光纤器件。当前FBG的制作与应用研究成为世界各国光纤技术研究的热点
随着互联网的迅速发展和数字信号处理技术的成熟,数字图像的应用越来越普遍和流行,比如数字电视、远程教育、新闻图片等。图像信息生动形象,它已经成为人们表达信息的重要手段之