基于联合模型的嵌套命名实体识别研究

被引量 : 4次 | 上传用户:nihaoyuyue2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体识别(Named Entity Recognition,简称NER),是指识别中文文本中具有特定意义实体的技术。中文命名实体识别是信息抽取、问答系统、句法分析、机器翻译等应用领域的重要任务。嵌套命名实体(Nested Named Entity,简称NNE),是指一种含有复杂结构的命名实体,它们通常包含一个或者多个基本命名实体。嵌套命名实体在命名实体中占有较大的比重,因此,本文对中文嵌套命名实体的识别进行了比较深入的研究。本文首先对嵌套命名实体识别各种研究方法进行了归纳与分析,然后针对现有的序列化标注方法存在的不足,提出一种基于联合模型的方法解决中文嵌套命名实体识别问题。本文的主要工作和贡献如下:1、首先,我们用序列化标注的方法对嵌套命名实体进行识别。本文分别采用基于层次标号标注的序列化标注方法和基于双层模型的序列化标注方法解决嵌套命名实体识别问题。通过采用经典的条件随机场模型,本文分别实现了两个中文嵌套命名实体识别的baseline系统。2、其次,我们提出和设计了一种联合模型的方法对嵌套命名实体进行识别。我们将命名实体识别任务中的分词问题、命名实体的边界确定问题、命名实体的类别确定问题看作一个联合问题同时进行处理。并且,我们将传统序列化标注方法中常用的“BIE”标注方法应用到联合处理过程中,用以识别中文嵌套命名实体。利用这种标注方法,我们不仅可以识别嵌套命名实体的边界和类型,而且还可以识别嵌套命名实体中包含的基本命名实体和词的边界、类型。本文为联合模型设计了丰富的特征模板,并且在这些特征模板的基础上,分别用平均感知器算法和k-best MIRA算法作为联合模型的训练算法,用通过"max-violation update"优化方法优化的Beam Search算法作为解码算法,来训练联合模型。在北京大学语料库上进行的十折交叉验证实验的结果显示,基于联合模型的中文嵌套命名实体识别的F1值为80.85%,明显优于两个基于传统的序列化标注方法的baseline系统的性能,实验结果验证了该方法的有效性。
其他文献
枕形包装机是一种通过使用挠性包装材料对产品进行三面封口的包装设备,在食品、医药、生活用品等领域得到了广泛应用。枕形包装机的控制系统程度决定其自动化发展水平,因而深入
在全球范围内,食品安全问题日益受到关注,“从农田到餐桌”的全程管理理念,被世界各国所推崇。而食品产业链的起点是农产品的生产和流通,因此,农产品的安全与否对于食品质量
“‘《奥林匹克宣言》全球文明传播’这一活动是奥林匹克历史上的一次创举,它以北京为中心和起点,以《奥林匹克宣言》为载体,将中国文化与世界文化相融合,丰富和发展了奥林匹
为了解船用LNG燃料罐的传热以及在内压和内部液体惯性载荷作用下的响应,建立了燃料罐有限元模型,分析了储罐的温度场分布和漏热。通过结构分析得到了储罐的应力场分布状况,比
基础教育课程改革倡导探究式教学理念,而传统化学探究教学中存在诸多问题。多媒体计算机辅助教学(Multimedia Computer-Assisted Instruction,简称MCAI)能够弥补传统探究教学
近视是目前危害我国青少年健康的最突出问题。随着近视程度增高,视网膜脱离等并发症随之增多,高度近视是目前致盲的主要原因之一。治疗近视常用的方法有光学矫正、药物及物理
随着国际竞争的不断加剧,各国越来越重视各自软实力的建设。在当前全球化的背景下,“软实力”不仅是国际政治理论问题的一个新方向,同时也是综合国力发展的一个新的战略问题,并且
《物权法》的出台给中小企业融资提供了新的方式,但同时由于相关法律规定的不完善又极易造成融资风险的增加,中小企业处于两难境地。在应收账款质押的法律条文只有两条的情况下
本课题应用流式细胞技术(Flow cytomertry, FCM)和酶联免疫吸附法(Enzyme linked immunosorbent assays, ELISA)检测40例非小细胞肺癌(Non-small cell lung cancer, NSCLC)患者化疗
现代社会经济的快速发展,逐渐步入老龄化社会,很多年轻的夫妻尽管有心想“独居”生活,但是由于多种多样的原因,他们无法或不能很好的单独面对许许多多的生活、照顾子女和照顾老人