基于主动学习的汉语依存树库构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zyr1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。目前句法分析仍主要采用有指导的机器学习方法,因此需要大规模高质量的树库作为训练语料,而现阶段汉语依存树库资源相对较少,树库标注又是一件费时费力的工作。本文首先介绍HIT-CIR-CDT(全称为“哈工大社会计算与信息检索研究中心汉语依存树库”)的详细标注过程,然后基于该树库介绍如何将主动学习应用到汉语依存树库的构建以达到减少标注成本的目的。主要采用了以下两大类方法:(1)聚类方法:采用聚类直接剔除冗余实例的标注,以期达到使用相同数目的训练实例能使句法分析达到更高性能;(2)置信度判别法:优先选择当前句法模型预测不准(即置信度较低)的实例交由人工标注,以期使句法分析达到相同性能只需更少的训练实例。在置信度判别法中,本文提出并比较了多种衡量依存句法模型预测可信度的准则,包括基于不确定性度量和委员会投票两大类。实验结果表明,置信度判别法比基于聚类的方法更简单有效。一方面,它使依存句法分析在达到相同性能时只需标注更少量实例,人工标注量最多可减少30%;另一方面,与随机选择标注实例相比,当使用相同数目的训练实例时,它总能使汉语依存句法分析性能有所提高,性能最高提升0.8%。这种方法也可用到句法分析的领域移植上,以减少获取新标注语料时的压力。由于主动学习对句法分析器效率要求较高,同时考虑到目前句法分析效率较低,主要在学术界研究较多,而在实际项目中应用较少,为了克服这些问题,本文最后设计并实现了并行化基于图的依存句法分析系统。并行前句法分析器速度为0.5KB/s,并行后平均速度为7.2KB/s,大大增加了句法分析在工程中的实用性。
其他文献
随着当前计算机技术、网络、多媒体技术、通讯等技术的飞速发展,各类日常生活中充斥的大量数字资源遍布的专门业务系统,那么在如今数字化日益普及的今天,数据挖掘显得尤为重
当前全国范围内的信息化建设都在飞速发展,各种信息系统应运而生,很大程度上加快了医疗卫生机构的信息化建设进程,这无疑是利国利民的好事情。但是,我们在实际工作中,发现了
纹理是物体表面的一个重要视觉属性,图像纹理特征在基于内容的图像检索、遥感图像分析、医学成像诊断、材料表面质量检测等领域中具有重要的作用。纹理特征提取是图像处理和
交通规费是指交通行政管理部门按照国务院和省(市)人民政府的规定,向车辆、船舶所有者和使用者征收并用于交通基础设施建设和养护的各种专项费用。改革开放以来全国的交通事
目前,以搜索引擎为代表的信息检索系统一般仅能通过人工设置的文字标签衡量图像等多媒体信息与检索关键词的相关性,而非使用多媒体信息本身所包含的内容进行检索。为了在图像检
近年来,随着数码摄影技术和互联网技术的迅速发展,海量的图像资源被互联网用户共享到社会化图像共享平台。这些社交图像的大量产生给图像的管理、检索和标注带来了很大的挑战
捕获与跟踪技术是实现全球定位系统(GPS)软件接收机的关键技术,其目的是使接收机产生的本地载波频率与扩频码的码相位和卫星信号一致,从而可以解调出导航电文,进而为伪距和接收机
近年来,精准农业受到越来越多国家的关注,它是在一系列高新技术的基础上发展起来的一种新型现代农业;是信息时代和知识经济的产物;是“科技兴国”的体现。变量施肥是精准农业
在无线通信领域中,协作通信技术(Cooperative Communication)利用网络中闲置的天线作为中继,形成分布式虚拟天线阵列(Distributed Virtual Antenna Array)。利用中继在不同时
计算机辅助检测与诊断系统可以帮助医生提高乳腺癌的早期发现率和诊断准确率。目前,辅助检测与诊断系统在肿块检测上的主要问题是灵敏度较低而假阳性较高,且只提示病变区域而不