汉语命名实体识别研究

被引量 : 24次 | 上传用户:luxinyiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是指识别语言中人名、地名、组织机构名等命名实体。汉语命名实体识别作为汉语切分任务的延续,是中文信息处理领域的一个基础任务,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。随着对命名实体识别技术的需求不断提高,当前命名实体识别技术主要面临以下三个新的挑战:(1)应用平台移动化:命名实体识别的应用环境从传统网络服务器、PC机等平台,扩展到了新兴的硬件受限的移动终端,这就要求命名实体识别技术在保持高性能的同时,降低模型复杂度;(2)数据规模海量化:随着网络信息的快速增长,新的命名实体不断涌现,这就要求命名实体识别技术能有效利用不断递增的大规模数据集;(3)实体类型多样化:已经从人名、地名、组织机构名等一般性实体,扩展到了电影名、图书名、音乐名等出版物类实体,品牌名、产品名、产品型号等商品类实体,而这些新的实体类型大都缺少标准的训练数据。本论文针对以上命名实体识别技术面临的挑战,从多个方面展开对命名实体识别的研究。论文的主要工作和研究成果如下:(1)针对移动终端硬件受限情况,同时兼顾性能的要求,提出了结合知识的二阶隐马尔可夫模型及高效的解码方法,将其应用于手机短消息中的实体识别,并构建了手机应用程序推荐系统。实验表明,通过扩展语言单元和利用更多的知识,大幅提高了模型性能,同时由于采用了新的二阶后项A*解码算法,大幅降低了模型复杂度,使得其在硬件受限条件下表现出满意的性能。(2)针对大规模网络数据上多类型实体的识别,从少量有标记数据出发,利用主动学习训练基于条件随机场模型的实体标注器,而后利用标注器在大数据集上抽取命名实体自动构建命名实体资源库;针对不同类型的实体在互联网上的分布情况不同,将实体分为两大类,并分别设计了两种不同的基于实体资源库的实体识别模型。实验表明,高质量的实体资源库能有效弥补统计模型难以习得所有命名实体模式的缺陷,显著提高了命名实体识别的性能;同时,改进的主动学习效用函数,大幅降低了人工标注数据的工作量。(3)将命名实体识别系统应用于网页意图分析,采用排序学习模型实现网页意图的抽取。实验表明,命名实体作为具有特定意义的实体,与网页关键词相比,意义完整性和专指性强,更能表征网页的中心内容,将命名实体识别技术应用于网页意图分析,能有效提升系统的性能。
其他文献
丹尼尔·贝尔是当代美国重要的社会学家和思想家。他对当代资本主义社会的研究既有对社会发展变化的预见,又有对社会现状问题的批判。本文选取他对当代资本主义社会文化批判理
靶场测量中的变焦距系统主要用于弹道轨迹和航天设备运行轨迹的实时跟踪与测量,记录有效的图像及跟踪数据,为了在有效的观测范围内得到稳定、清晰的成像数据,必须对光学系统进行
在高性能聚合物领域中,聚酰亚胺以其优异的性能指标受到科学家们的广泛关注,改性后的聚酰亚胺则显示出了许多更加出色的性能。将硅元素引入到聚酰亚胺基体中可以有效使杂化材料
本文在大量收集相关资料的前提下,通过对永年县发展农村户用沼气发展的条件、永年县农村户用沼气发展现状进行分析、对永年县发展农村户用沼气发展进行分析并提出解决对策、探
多面体笼型倍半硅氧烷(Polyhedral oligomeric silsesquioxane, POSS)是一种由Si-O-Si为骨架结构的新型无机/有机杂化分子。根据POSS上Si原子所连接的取代基团不同,可以将POSS
外来入侵植物黄顶菊是我国危害最为严重的恶性杂草之一,具有发生量大、繁殖迅速、传播速度快的特点。相比简单的防治方法,资源化利用黄顶菊具有更大优势。为综合防控黄顶菊,开发
本文主要从东汉末年代表文人五言诗最高成就的《古诗十九首》中所表现的生命意识研究汉魏之际文人生命意识的觉醒。李泽厚先生在《美的历程》一书中曾提到过“人的觉醒”,认
目的:哺乳期是女性特殊的生理时期,产后避孕方法有多种,但这几种避孕方法对哺乳期妇女均存在明显不足之处。寻找一种切实可行的、安全、简便、有效的针对哺乳期妇女的避孕方法显
目的:探讨非小细胞肺癌肺内第12、13组淋巴结转移规律及其临床检测的价值。方法:对141例非小细胞肺癌行肺切除和淋巴结清扫术的患者进行详细的临床病理分析。本研究选取在2010
双联抗血小板药物氯吡格雷联合阿司匹林已经成为ACS和PCI患者的标准治疗。但是这种治疗也增加了胃肠出血的风险。PPIs能有效的保护胃粘膜而经常与抗血小板药物同时应用。氯吡