【摘 要】
:
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自
论文部分内容阅读
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文利用最大熵模型(Maximum Entropy,ME)进行中文命名实体识别。尝试了在不同特征模板集下,命名实体识别的性能,深入研究了最大熵模型在中文命名实体识别中的特点,发现最大熵模型不能自动组合特征,模型性能很大程度上依赖于特征模板。因此,设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。汉语中存在大量的隐含语义特征,可以帮助命名实体的识别,而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点,本文通过从语料库中抽取信息的方式,建立了大量的中文命名实体语义知识库。但是,由于语料库的规模有限,并且基于统计的方法普遍存在数据稀疏的问题,导致很多重要的知识不能被挖掘出来。为了解决这一问题,本文首次将语义扩展的思想应用在命名实体识别中,充分发挥了有限语言资源的作用,深度挖掘了有限资源的信息和知识,在不扩大语料库的前提下,挖掘出更丰富的知识,一定程度上缓解了数据稀疏问题。实验证明,相对于扩展前的知识库,利用扩展后的知识库,平均识别召回率提高了1.17%,F值提高了0.41%。特别是结构比较复杂的机构名识别准确率提高了0.24%,召回率提高了1.39%,F值提高了0.86%。
其他文献
异构平台系统虚拟机技术是解决“ISA壁垒”问题的重要手段,对于促进体系结构创新和新兴处理器的推广具有重要意义。受ISA间差异影响,异构平台系统虚拟机在运行时存在较大的性能
互联网与计算机已经成为当前人们工作和生活中不可或缺的一部分,但是,在人们享受信息技术带来的便利的同时,也不得不承受计算机病毒、蠕虫等恶意代码对信息安全和个人隐私带来的
随着计算机的普及,网络的飞速发展,秘密信息和隐私的保护也越来越重要,但是当前网络中的用户秘密,隐私泄露的问题十分严重。身份认证技术是信息安全的一个重要机制,通信的双
VoIP(Voice Over Internet Protocol)是Internet应用领域的一项热门技术。VoIP具有低成本,开放性,灵活性等诸多优点,给人们的生活带来的很大的便利,同时也带来了网络犯罪等安
多媒体卫星通信网络是一个把空间和地面宽带通信融合于一体的天地一体化通信网络。卫星通信采用星上处理和交换技术,把通信路由功能从地面设备转移到空间卫星上,从而使卫星系
不确定性人工智能是当前人工智能中的研究热点和重大的前沿课题。模糊神经网络是不确定性知识环境下构建非线性系统的重要工具。本文针对模糊联想记忆网络和模糊霍普菲尔德网
在社会逐渐步入信息化,信息化技术、信息化设备日渐普及的今天,网络给人们的生活带来了巨大的变化,人们对网络的依赖也愈发严重。在使人们生活、工作更加方便的同时,网络也对人们
本文针对K-means算法容易出现局部最优的缺点,引入了一种改进的种群分类蚁群算法ICACA(Improved Character-base Ant Colony Algorithm)对其进行优化。蚁群算法采用了正反馈
将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英
离群数据挖掘就是从大量复杂的数据集中发现存在于小部分异常数据中的新颖的、与常规数据模式显著不同的新的数据模式。从数据挖掘的角度来看,在一些应用中,稀有事件往往比常