基于条件随机场的中文命名实体识别研究

被引量 : 17次 | 上传用户:hklsdjflkafg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(NER)在自然语言处理中是一个最困难的任务,它在一些语言处理的应用中充当了关键作用,如信息提取、文本分类等。之前已经有很多基于命名实体识别的研究,现在中文命名实体识别研究也开始被重视。中文和英文语料存在很大的差别,中文词语之间没有空格作为词之间的分隔标记,这使得中文命名实体识别成为一个比英文命名实体识别更加艰巨的任务。在之前的研究中很多方法被试用,而条件随机域CRF模型取得了一个很好的效果。在之前很多研究条件随机域的工作中,大多数集中在CRF特征模板的选取,他们使用了复杂的CRF模板,这其中耗费了大量的系统内存,并需要很长的时间来处理训练数据。在本文中,我们侧重于提高中文命名实体识别系统的效率。我们建立了两步的基于CRF模型的中文命名实体识别系统。第一步,我们使用CRF模型去识别中文命名实体,在使用了改进的标注集以后,可以使这一步骤的效率更高。第二个步,我们使用一些后处理方法来提高准确性。后处理方法包括TBL和基于规则的方法。通过对比实验,我们发现简单模板Tempfate-3和五种标注标注集的搭配比Template-5和四种标注标注集的搭配可以得到一个更高的准确率(P值),虽然系统召回率(R值)比Template-5和四种标注的标注集要低,但是系统的总体情况F值显示在识别结果上两种模板效果相近。但是从资源占用上可以看到,Template-3和五种标注的标注集占用了更少的系统资源和使用了更少的训练时间。由此可知,当你使用一个简单的CRF特征模板时,只要你能找到一个与之相匹配的标注集,系统同样可以得到跟使用复杂特征模板时取得相近的效果,同时你还节省了不少系统资源。而我们的系统获得的F值是91.94,且我们的系统使用较少的系统资源。文章最后分析了产生这种实验结果的原因,并给出了对日后工作的展望。
其他文献
基于湖南20个示范村和18个非示范村的调查发现,得益于政策的驱动和村民的积极参与,示范村在乡风文明、村容整洁和管理民主等方面的建设效果优于非示范村。在新农村建设中,应
<正> 某化工厂由美国引进一套制碱装置,其中连接法兰(图1)是该装置中的重要部件(它上面连接耐酸泵,下面与容器密封),它由连接基板(Q235)+衬套(Incoloy804合金)+衬板(纯Ni)经
期刊
广告无孔不入的时代,文化成了广告出奇制胜的法宝。在广告中注入文化内容,增加文化含量,采取文化攻心战略,能把广告的商业功能巧妙地掩藏,利用文化的力量感染受众,从而最大限
随着互联网的普及、电子商务的兴起以及移动通讯技术的迅速发展,移动支付作为一种新兴的产业,在全球范围内展开了广泛的应用,并在日韩等国取得了巨大的成功。而在我国,经过几
冷冲模具的主要失效形式是磨损,以往常采用镶块嵌入法,堆焊和电刷镀的修复方法。但采用镶块嵌入法修复的模具结构较复杂,加工困难,对工人的技术要求较高;堆焊在修复过程中热量注入
随着时代的发展,石油、天然气等能源在国民经济中占据着越来越重要的地位。管道运输作为石油、化工行业中能源输送的最主要的途径,必然会成为世界各国关注的问题之一。由于管
随着社会经济的发展,中等职业教育在人才培养方面的重要性日益显现。"双师型"教师队伍的建设是制约中等职业教育发展的关键和难点,而有效的政策供给是促进"双师型"教师队伍建
<正>病例:患者,女,56岁,因卵巢癌复发于2008年5月13日入院。既往因绝经8年,阴道出血2个月伴腹胀,检查发现盆腔肿物,于2005年7月26日于外院行全子宫、双附件大网膜、阑尾切除
叶片类零件广泛应用于汽轮机、水轮机、航空发动机等能源动力设备中,数量大、种类繁多,叶片加工质量直接影响能源动力设备的性能。叶片类零件的成形加工一般是数控铣削,然后通过
本文采用真空电弧炉熔炼多晶NiMnInGd系列合金: Ni50Mn34.5In15.5-xGdx、Ni50Mn35In15.5-xGdx(x=0.1,0.5,1,2),并且对熔炼后的合金进行900℃×24h的扩散退火,以900℃×2h的冰水