中文命名实体识别方法研究及系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：shihongxin

【摘要】

：

本论文针对信息抽取的关键技术之一命名实体的抽取进行了较为全面而深入的研究。首先着重分析了中文命名实体识别的难点和特点。然后针对人名、地名、机构名分别建立了以单字

【作者】

：

吴锦怡

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2005年期

【关键词】

：

信息抽取中文命名实体识别隐马尔可夫模型召回率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本论文针对信息抽取的关键技术之一命名实体的抽取进行了较为全面而深入的研究。首先着重分析了中文命名实体识别的难点和特点。然后针对人名、地名、机构名分别建立了以单字、辞典词、类为单位的HMM模型，有效地解决了机构名的嵌套问题，同时加入单字命名实体HMM，能实现部分缩略语的识别，对具有包含关系的连续多个地名和机构名以通过建立级联表的方式进行处理；对于时间表达式和数值词表达式采用构建DFA的方式识别。最后采用基于类语言模型的方法将多类的命名实体识别融合在一个统一的分词框架内，该方法充分地利用了实体的局部特征和文本的全局信息，可以消除命名实体类之间的歧义。在上述研究基础上实现了一个中文命名实体自动识别系统，通过对40万字的真实语料进行测试，召回率达到81.10％，准确率达到83.69％，且处理速度达6-8字符/毫秒。

其他文献

基于图像处理的鱼类识别方法研究

海洋渔业资源是一种可以为人类利用并可再生的宝贵资源，海洋生物资源的开发越来越受到重视，因此使用科学的手段发展海洋渔业、保护鱼类资源成为可持续发展的首要任务。随着科技

学位

图像处理鱼类识别双频识别声纳多目标模板匹配线性插值法

RXRα的新功能——作为分子载体协助孤生受体TR3核浆转运

视黄素(retinoids)是天然的或人工合成的维生素A衍生物，在细胞生长、分化和凋亡过程具有重要作用。视黄素的作用主要由其受体retinoicacidreceptors(RARs)和retinoicXreceptor

学位

视黄素X受体α孤生受体TR3核浆转运胃癌细胞分子载体细胞凋亡

甚低速率混合激励语音编码算法研究

本论文针对甚低速率语音编码技术,首先对MELP算法进行了深入研究,然后着重研究并实现了基于MELP的600bps语音编码算法,通过对语音参数的帧间相关性的研究,利用多帧联合矢量量

学位

语音编码混合激励甚低速率语音编码多帧联合量化变速率语音编码

Realcourse中的语义检索子系统的设计与实现

本文将基于大学课程在线平台，探索一套可行的语义检索方案。建立了两个本体作为语义化的标准。一个本体表示了教学资源中各个资源的类型、属性以及资源之间的关系。这些关系描

学位

语义检索本体定义信息抽取推理机

基于波分复用光网络中的业务均衡算法

本文对WDM(Wavelength Division Multiplex)中动态业务下的RWA(Routing Wavelength Assignment)算法进行研究,通过对现存波长分配算法的分析,发现现存算法主要是以减小瓶颈链

学位

阻塞率波分复用路由波长分配算法

芦笋多糖的提取及其生物学活性研究

本研究应用生物化学方法,分离提取了芦笋多糖,并对芦笋多糖抗肿瘤、抗氧化及免疫调节作用进行了初步研究。以期为进一步开发利用芦笋的食用和药用资源提供参考。将芦笋烘干磨

学位

芦笋多糖抗肿瘤NO抗氧化

稻草人的美丽变身

仙居不但自然风光优美,而且农业景观资源丰富。油菜花节期间,8万余亩的油菜花铺就“满城尽带黄金甲”的视觉盛宴。2010年,稻草人美丽变身走进花海,旋即成为油菜花节的主角,受

期刊

满城尽带黄金甲菜花节景观资源视觉盛宴油菜花稻草人仙居物类仙乡动漫

基于DSP的6.3/5.3Kb低码率语音编码器的实现

本文比较了多种固定码率的语音编码方式，选择了G.723.1语音压缩编码作为分析目标，分析了参数编码中构造滤波器所用到的LPC系数的计算方法，LPC系数和LSP系数相互转换算法，并在TI公

学位

语音压缩编码编解码算法视频信号实时采集语音编码器

独立成分分析在事件相关电位测谎中的应用

本研究采用“怪球+延迟反应”的实验范式，把P300测谎和CNV(Contingentnegativevariation)测谎结合起来，旨在寻找事件相关电位(Event-RelatedPotentials，ERPs)测谎中更加稳定可靠

学位

测谎事件相关电位独立成份分析靶刺激脑电源

DSP&CPU芯片中重构处理的设计研究

本文从进一步提高DSP&CPU处理器效率的需求出发,对低功耗设计和重构处理技术进行了研究,在这些研究的基础上,提出了数据流重构处理技术.本文工作的主要意义在于:针对在许多数

学位

重构计算脉动计算电源网络DSPCPU处理器数据流重构处理

中文命名实体识别方法研究及系统实现

其他学术论文