【摘 要】
:
命名实体识别是自然语言处理中一项基础性研究任务。传统方法使用浅层序列标注模型(如:隐马尔科夫、条件随机场)对每个字输出一个分类标签,分别表示实体的“开始”,“后续”和“外部”(B-I-O编码)。序列模型通常采用动态规划算法输出一条概率最大的标注路径。由于传统命名实体识别主要针对单个句子进行处理,所以上下文特征稀疏问题非常严重。另外,输出一条概率最大的标注路径无法识别嵌套的命名实体。为了识别嵌套的命
论文部分内容阅读
命名实体识别是自然语言处理中一项基础性研究任务。传统方法使用浅层序列标注模型(如:隐马尔科夫、条件随机场)对每个字输出一个分类标签,分别表示实体的“开始”,“后续”和“外部”(B-I-O编码)。序列模型通常采用动态规划算法输出一条概率最大的标注路径。由于传统命名实体识别主要针对单个句子进行处理,所以上下文特征稀疏问题非常严重。另外,输出一条概率最大的标注路径无法识别嵌套的命名实体。为了识别嵌套的命名实体,相关研究大多采用级联模型:先产生候选实体,再进行分类。级联模型只能对每个阶段进行优化,无法获得全局最优,而且容易产生级联失效(Cascading Failure)的问题。针对命名实体识别特征稀疏和嵌套实体识别困难的问题,本文提出了一种基于深度边界组合的模型(NNBA)。NNBA在边界组合算法的基础上,构建了基于BERT的级联模型。该模型采用基于Bi-LSTM-CRF的序列标注算法识别命名实体的开始边界和结束边界,通过边界组合后产生候选命名实体,最后采用MultiLSTM模型进行实体筛选。由于BERT能够利用外部数据自动获取词的抽象语义表示和上下文依赖,NNBA能够有效解决浅层学习模型面临的特征稀疏问题。在ACE2005中文数据集上的F1值达到了90.12%,超出对比方法17%。针对级联模型的缺点,本文在NNBA的基础上提出了端到端的边界回归模型(BR)。该模型借鉴了图像目标检测领域的算法思想,结合线性文本序列和命名实体识别的特点,采用了线性采样算法和边界回归算法。通过端到端的方式构建了基于神经网络和边界回归算法的多目标学习框架,在预测文本边框分类标签的同时,对其位置进行预测,可以更有效利用标注数据中的监督信息。BR模型在ACE2005中文数据集上取得了良好的性能,F1值达到了89.30%。
其他文献
塔加尔文化是公元前一千纪期间分布于俄罗斯米努辛斯克盆地的早期铁器时代文化。本文以特佩西墓群的墓葬材料为研究对象,对该墓群中发现的塔加尔文化时期墓葬遗存进行全面梳理。根据墓葬形制将其分为两大类:独立墓葬(37座墓穴)和库尔干(20座,包含68座墓穴)。在对随葬品类型的基础上,根据墓穴位置和埋葬人数演变规律以及随葬品组合情况,讨论了遗存的分期及其阶段性变化。进而对墓葬进行分区分群,进一步探讨文化因素来
锌酞菁(Zn phthalocyanine,Zn Pc)是一种高效的第二代光敏剂,具有良好的光物理和光化学性质,可用于癌症的光动力治疗。然而,由于共轭分子间的π-π作用力,Zn Pc溶解性差、结晶趋势强,阻碍了其直接用药。本文采用纳米给药系统-纳米胶束复合水凝胶包裹光敏剂:一方面,纳米胶束能显著增强Zn Pc的溶解度及渗透性;另一方面,水凝胶使光敏剂长时间停留在肿瘤部位,减少了药物稀释效应带来的有
随着工业化的快速发展和现代化进程的高速推进,居民生活水平及便利程度都大大提高,但工业化及现代化同时也是“双刃剑”,在提升人类生活质量的同时,生态环境的破坏也日益剧烈。因此,环境保护成为了二十一世纪全人类的共同课题。西方发达国家早在二十世纪初期即开始重视环境污染问题,采取了各式各样的措施来治理环境污染。在理论和实践相互印证、相互推进下,西方各国政府逐渐减少使用行政手段直接干预的治理方法,转向诸如对特
在中国文化走出去的大背景下,博物馆展览成为中外文化交流必不可少的窗口之一,展览文案翻译的需求不断增加,如何准确传达博物馆展览文案信息、“讲好中国故事”变得更加重要。在李长栓的《非文学翻译理论与实践》启发下,笔者认为简明英语原则作为一种写作翻译的方式,可以为提升博物馆展览文案英译的质量和宣传效果提供新思路,帮助译者在简洁准确传达原文的同时,令读者快速掌握信息。本论文以上海犹太难民纪念馆新馆展览文案英
最近几年,建筑业仍然持续的较快发展,建筑业产值和利润也保持稳定增长。但是,在复杂多变的市场经济环境中,建筑施工企业仍然需克服诸多的困难才能在市场经济中稳步前进。如果
随着人类盲目对不可再生能源的利用,能源危机已经逐渐逼近,各国已经纷纷将产业结构往可再生能源方向发展。我国尤其重视新能源的发展,并为此出台各项政策以推动新能源在技术和规模上领先世界。太阳能被誉为最为清洁的能源,从提出光电效应理论到光伏电站大规模投产,人类对光伏科技的发展技术上已经成熟。随着我国光伏发电产业的逐步发展,光伏电池的质量、寿命、光电转化率等越来越成为制约其发展的关键因素。因此,为进一步促进
《中华民国公报》是中国历史上第一个资产阶级共和政权——中华民国湖北军政府的机关报,它与晚清官报有着本质上的区别。《中华民国公报》为维护辛亥首义地区社会稳定,促进反清革命的发展作出了重要贡献;是记录中华民国湖北军政府和民国成立前后的革命形势的重要史料,具有重要研究价值。同时它在政府机关报方面有多方面创新,奠定了近现代政府公报发展的重要基础。论文主要分为五个部分,第一部分主要研究《中华民国公报》创办前
充足、安全、清洁的能源供应是经济发展和社会进步的基本保障。我国人口众多,人均能源消费水平低,能源需求增长压力大,能源供应与经济发展的矛盾十分突出。从根本上解决我国的能源问题,保护环境,实现可持续发展,除大力提高能源效率外,加快开发利用可再生能源是重要的战略选择。风力发电作为主要的可再生能源,近年来发展迅速,全国风电装机规模持续扩大,稳居全球第一。风电已经成为我国重要能源之一,但由于风能存在间歇性和
将CO_2电化学转化为碳氢化合物燃料既望有效降低大气中二氧化碳的浓度又产生可用的工业产品,是人类应对全球气候变暖和缓解能源危机的可持续技术之一。目前报道的电催化剂中还普遍存在过电位较高、产物选择性较低的问题。本论文基于酞菁特殊的二维共轭π-电子结构、强配位能力、高催化性能、低成本等优点,合成九种金属酞菁配合物,研究其电催化还原CO_2性能,并对机理进行探讨,主要内容如下:利用溶剂热法合成了铅酞菁P
黑社会性质组织犯罪是有组织犯罪的高级形态,其危害性比普通的刑事犯罪要严重的多,因此必须予以严厉打击。我国自1997年首次在《刑法》中规定黑社会性质组织的相关罪名以来,如何认定一个犯罪组织构成黑社会性质组织一直是理论界和司法实践领域不断研究和探索的重点。文章通过一个以“套路贷”形式实施违法犯罪活动的案例,引出案件的三个争议焦点,并针对该案件是否具备黑社会性质组织的组织特征、危害特征以及是否存在重复评