基于深度学习的古籍文本断句与词法分析一体化处理技术研究

来源 :南京师范大学 | 被引量 : 1次 | 上传用户:haili20102010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展以及电子化古籍文本数量的不断增加,古汉语信息处理逐渐成为一个重要的研究领域。中国古籍资源承载着璀璨的中华文明,蕴含着丰富的语言文化知识,对其进行整理、加工和研究是一项必不可少的工作。然而古籍文本体量巨大,仅通过资深学者人工的方式进行处理和分析费时费力。而利用先进技术对海量古籍文本进行自动分析,不仅可以大大减轻人工标注的负担,而且能够进一步挖掘出以往通过肉眼难以发现的文本特征和规律,还可以促进机器对古文的深入理解,并进一步开发出面向古文的智能应用。对于古籍文本,首要解决的问题就是自动断句(针对无标点文本)与自动词法分析(包括自动分词、词性标注、专名识别等),其自动切分和标注质量的好坏不但会导致文本深入的知识挖掘工作难以开展,而且将直接影响到语言信息处理下游任务(比如句法分析、语义分析等)的处理效果。目前,现代汉语领域的自动词法分析已经取得了不错的效果,而在古汉语领域还存在着诸多问题:(1)多以单本专书为实验数据集,数据规模较小,模型泛化能力弱,不能适用于大规模、跨时代真实文本的标注;(2)多采用传统的统计机器学习方法进行研究,严重依赖于人工设计的特征,模型标注精度有待提高;(3)绝大多数古籍文本未经标点断句,词法分析等任务首先需要建立在断句基础之上,以往的研究将断句与词法分析各任务采用“流水线”式的处理方法,忽视了各任务间的深层依赖关系,容易造成标注错误的多级扩散且整体效率低下。对于这些问题,我们提出了以下的处理方案:(1)扩大了古汉语精加工语料库的规模,为古汉语自动断句与词法分析研究提供了数据支撑。根据不同成书时代选取具有代表性的古籍文本,采用机器自动标注和人工校对相结合的方式对所选取的古籍文本进行了分词、词性标注和断句标准化的加工处理。整个精加工语料库的规模达到421万字,满足了模型跨时代适用性实验的需要。(2)基于深度学习技术构建了古汉语自动断句与词法分析架构,详细探讨了序列标注模型应用于古汉语词法分析的技术方案。深度学习模型可以通过多层非线性变换实现古汉语特征的自动抽取,避免了传统机器学习模型繁琐的特征工程。通过对比多种不同网络层次组合模型对古汉语的标注效果,得出了适用于古汉语词法分析的最佳组合模型,采用Bert向量作为输入层,采用Bi LSTM进一步提取特征,在输出层接入条件随机场(CRF)以获得整句最优的标注结果。(3)采用断句与词法分析联合学习的方法实现了古汉语多任务一体化的标注,开发了古汉语一体化词法分析平台,系统可同步输出自动断句、自动分词及词性标注的结果,避免了标注错误的多级扩散且大大提高了处理效率。通过在不同专书上设置单任务(比如,仅分词任务)对照实验,验证了模型一体化断句与词法分析的可行性;通过混合语料模型和专书语料模型的跨文本交叉实验,验证了混合语料模型的泛化能力,并进一步在大规模的精加工语料库上构建了跨时代的混合语料模型,探讨了其针对不同时代文本进行一体化标注的通用性。综上,针对古汉语信息处理在断句与词法分析方面的问题,本文设计实现了一体化的断句与词法分析标注方法,开发了一套断句与词法分析一体化处理系统,基于深度学习模型在所构建的精加工语料库上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务均有提升,各任务的平均F1值分别达到90.71%、92.33%、86.93%,比单任务处理分别提升了0.8%、1.16%、0.44%;混合语料模型能够胜任不同时代文本的自动标注工作,且其断句任务的效果在整体上优于单一语料模型。断句与词法分析一体化处理技术的实现为古文的深入知识挖掘以及古汉语的句法及语义分析奠定了基础。
其他文献
公共政策会随着社会的发展而变化,政策变迁表现为政策的补充、调整或终止以及新的政策的执行,政策变迁受到制度、行动者、环境等动力因素影响。因此,政策变迁是政策研究的重要内容,通过对政策变迁过程进行研究可以揭示政策变迁的动力因素变迁规律等。研究基于约翰.W.金登的多源流理论,采用文献研究法、调查研究法对温州市妇女产假政策的变迁过程进行分析,深入探讨各次变迁动力,寻找温州市妇女产假政策变迁的动力因素,并尝
近年来,随着深度卷积神经网络在计算机视觉领域上的显著性进步,特别是通过卷积神经网络进行人体姿态估计取得了较好的效果,同时图像处理领域也取得了明显的进步。自然场景下采集的图像可能含各种噪音(像雾气、雨滴、以及高斯白噪声等)的干扰,严重的影响了图像中人物的可观测性。本文主要对图像处理领域的图像去雾、图像去噪和高级计算机视觉中的人体姿态估计三个方面进行了研究。针对大多数图像去雾算法模型参数估计准确性差及
高速发展的现代科技对天线的小型化和高性能的要求逐步提高,在这样的背景下,微带天线凭借其工作频段较高、物理尺寸小、易集成的优点获得了越来越多的关注。LTCC(低温共烧陶瓷)材料凭借其高介电常数、低介质损耗、设计灵活的优点,取代传统的材料,成为了微带天线介质基板材料的新兴选择,LTCC材料的优异性能可以有效地进一步提升微带天线性能,实现小型化,而其多层结构也有利于使用天线封装技术(Ai P)在天线下方
随着互联网的发展,推荐算法在人们的生活中起到越来越重要的作用,从海量数据中挖掘用户的兴趣与需求,对用户进行个性化推荐成为一个重要的研究课题。研究者们通过深入研究提出了多种多样的推荐算法,主要包括协同过滤、基于内容的推荐和混合推荐算法,其中综合考虑评分和项目内容的混合推荐算法可以缓解单一考虑评分或内容的推荐算法存在局限性的问题,大数据的思维也使研究者们更加致力于使用多维度数据对用户兴趣细致表示,形成
首先,在创新创业背景下,新创企业作为我国企业的重要组成部分之一,其科技创新能力与绩效水平是我国企业“双创”水平的重要体现。十九大报告明确指出,政府需要促进资源优化配
每个企业都有不同的发展阶段,在不同的阶段,企业要根据实际情况来使用与其发展战略相匹配的组织结构和管理手段;在不同的阶段,企业也要随着自身外部环境的变化来调整目标以实现可持续发展。科学且有效的组织结构对企业来说具有重要的意义,它可以将各级管理人员的职责明确化、制度化。建立科学且有效的组织结构对于企业内部秩序的建立具有重要的积极作用,同时通常被认为是企业实现可持续发展的必不可少的重要工作及任务。随着5
抗生素广泛用于畜牧业、水产养殖业和医疗,目前对环境残留问题高度关注。由于具有保护绿色环境、单纯的反应条件、低能源消耗等优点,光催化技术在水中含有的抗生素应用领域备
科学与技术是影响科技发展的两个重要因素,二者共同推动科技的发展与进步,科学和技术的关系一直被认为是科技发展中最复杂的关系之一。目前,我国科学与技术的互动态势有待加强,剖析科学与技术内在关联、识别科学与技术互动模式,在推动科技成果转化、揭示科技发展方向方面有重要作用。现有研究基于科学-技术关联分析多停留在统计分析层面,从文献内部挖掘科学-技术之间知识关联与互动规律的相关研究较少。为此,本文以节能领域
中国特色社会主义已经进入了新时代。新时代,中华文化的传承与发展更加多元化。与此同时,世界领域的文化竞争暗流汹涌,国与国之间的文化交锋更多的体现在意识形态之间的较量。我国正面临着西方国家意识形态的入侵,经受着西方价值观对社会主义核心价值观的冲击,我们要坚决维护文化领域的安全,防止资本主义价值观的渗透。抵御西方意识形态入侵的最佳手段,就是树立起全民族的文化自信,增强民族自信心和感召力。大学生是抵御意识
亚波长结构器件已经越来越受到研究人员的广泛关注,因为当器件的尺寸为亚波长量级时,就会出现很多常规器件没有的新特性和新现象。太赫兹光谱因为其独特的特点,为大多数器件提供了一种高效、快捷的光谱分析方法,适用于多种传感领域,如生化识别、生产监控和环境监测等方面。利用亚波长结构的特性和太赫兹光谱的特点,可以设计出新型的亚波长传感器件。但是现在大多数亚波长传感器件还是不能很好地满足人们的需求,还需进一步的对