中文命名实体识别方法研究及系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:shihongxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文针对信息抽取的关键技术之一命名实体的抽取进行了较为全面而深入的研究。首先着重分析了中文命名实体识别的难点和特点。然后针对人名、地名、机构名分别建立了以单字、辞典词、类为单位的HMM模型,有效地解决了机构名的嵌套问题,同时加入单字命名实体HMM,能实现部分缩略语的识别,对具有包含关系的连续多个地名和机构名以通过建立级联表的方式进行处理;对于时间表达式和数值词表达式采用构建DFA的方式识别。最后采用基于类语言模型的方法将多类的命名实体识别融合在一个统一的分词框架内,该方法充分地利用了实体的局部特征和文本的全局信息,可以消除命名实体类之间的歧义。 在上述研究基础上实现了一个中文命名实体自动识别系统,通过对40万字的真实语料进行测试,召回率达到81.10%,准确率达到83.69%,且处理速度达6-8字符/毫秒。
其他文献
海洋渔业资源是一种可以为人类利用并可再生的宝贵资源,海洋生物资源的开发越来越受到重视,因此使用科学的手段发展海洋渔业、保护鱼类资源成为可持续发展的首要任务。随着科技
视黄素(retinoids)是天然的或人工合成的维生素A衍生物,在细胞生长、分化和凋亡过程具有重要作用。视黄素的作用主要由其受体retinoicacidreceptors(RARs)和retinoicXreceptor
本论文针对甚低速率语音编码技术,首先对MELP算法进行了深入研究,然后着重研究并实现了基于MELP的600bps语音编码算法,通过对语音参数的帧间相关性的研究,利用多帧联合矢量量
本文将基于大学课程在线平台,探索一套可行的语义检索方案。建立了两个本体作为语义化的标准。一个本体表示了教学资源中各个资源的类型、属性以及资源之间的关系。这些关系描
本文对WDM(Wavelength Division Multiplex)中动态业务下的RWA(Routing Wavelength Assignment)算法进行研究,通过对现存波长分配算法的分析,发现现存算法主要是以减小瓶颈链
本研究应用生物化学方法,分离提取了芦笋多糖,并对芦笋多糖抗肿瘤、抗氧化及免疫调节作用进行了初步研究。以期为进一步开发利用芦笋的食用和药用资源提供参考。将芦笋烘干磨
仙居不但自然风光优美,而且农业景观资源丰富。油菜花节期间,8万余亩的油菜花铺就“满城尽带黄金甲”的视觉盛宴。2010年,稻草人美丽变身走进花海,旋即成为油菜花节的主角,受
本文比较了多种固定码率的语音编码方式,选择了G.723.1语音压缩编码作为分析目标,分析了参数编码中构造滤波器所用到的LPC系数的计算方法,LPC系数和LSP系数相互转换算法,并在TI公
本研究采用“怪球+延迟反应”的实验范式,把P300测谎和CNV(Contingentnegativevariation)测谎结合起来,旨在寻找事件相关电位(Event-RelatedPotentials,ERPs)测谎中更加稳定可靠
本文从进一步提高DSP&CPU处理器效率的需求出发,对低功耗设计和重构处理技术进行了研究,在这些研究的基础上,提出了数据流重构处理技术.本文工作的主要意义在于:针对在许多数