【摘 要】
:
命名实体识别的指的是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类.命名实体识别的主要过程有实体边界的识别和确定实体的类型(如人名、地
论文部分内容阅读
命名实体识别的指的是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类.命名实体识别的主要过程有实体边界的识别和确定实体的类型(如人名、地名或组织机构名).命名实体识别的研究主体是命名实体.命名实体通常由3个大类和7个小类组成.3大类是:实体类、时间类和数字类;7小类是:人名、地名、时间、日期、货币、机构名和百分比.由于实体数量众多、结构复杂、不同的文化背景会有较大差别等因素使得命名实体识别工作变的非常复杂.目前国内外主要采用的方法是基于规则的方法、基于统计的方法和两者相结合的方法.在解决命名实体识别的具体问题上又可以分为监督式的学习、半监督式的学习和无监督式的学习.本文中设计并实现了一个半监督的NER系统,该系统由训练子系统和标注子系统两部分组成.训练子系统从种子实体出发,经过搜索引擎检索、识别候选实体和噪音过滤等步骤生成确定类型的命名实体列表.噪音过滤技术的好坏直接影响命名实体识别的结果.不同的语言环境和不同的实体类型都会影响噪音过滤的算法,因而对于不同的文本不同的实体类型可以使用不同的噪音过滤方法来得到更好的结果.噪音过滤分为词汇级别的噪音过滤和语义的噪音过滤.词汇级别的噪音过滤中,本文提出并实现了基于词汇特征的噪音过滤、信息冗余的噪音过滤和两者结合的噪音过滤的方法.实验表明词汇特征和信息冗余相结合的过滤方法要优于任何一种方法单独进行过滤.在迭代的噪音过滤之后还提出并实现了统计语义的噪音过滤,但由于算法运行时间过长,不能加入到噪音过滤的迭代过程中,只能在确定最终的实体列表之前进行最后一次过滤.标注子系统根据生成的命名实体列表更新ICTCLAS的用户词典,对未标注的文档进行词性标注,提高其性能.
其他文献
现代高性能数字信号处理器大多数采用超长指令字体系结构(Very Long Instruction Word, VLIW),通过在同一时钟周期发射多条指令以便获得更高的运算性能,发掘目标机器指令级别
空间数据库的重要性日益增加,其应用的范围已远远超出传统的GIS(geographic information system)领域。最近邻居查找在空间数据库中占据着重要的位置。在传统的最近邻居搜索
网格的目的是将地理上分布的、系统上异构的多种计算资源通过高速网络连接起来,协同解决大型应用问题,进行广域信息资源的分布共享,最终把整个因特网整合成一台超级虚拟计算
无线传感器网络是一种由大量微小的、具有感知、通信与计算能力的传感器节点以多跳无线通信方式构成的自组织网络,其低廉的成本和快速灵活的部署能力使其在军事、安全、环境
无线Mesh网络(Wireless Mesh Network,WMN),是一种新型的宽带无线网络结构,是一种多跳的分布式网络。现今,WMN网络正以其众多的优点成为无线网络的一种重要的接入方式,并且逐
粗糙集理论是波兰学者Z.Pawlak于1982年提出的一种能够有效处理不精确和不确定信息的数学工具。该理论把知识看作是不可分辨关系,并引入上、下近似的概念来刻画知识的不确定
随着移动智能设备的快速普及,Android操作系统以其优异的性能,获得了巨大的成功。但同时,Android系统也成为了许多恶意应用的攻击目标。为了限制应用软件的行为,Android系统
近年来,随着网络通信技术和信息传播多样化的发展,统一通信发展迅猛,越来越多的企事业单位和个人开始使用统一通信来满足工作和日常生活的信息交流。但由于现在局域网都有NAT
互联网络的发展,使得人们不得不关注网络空间中存在的信息生态问题,对网络信息生态状况的定量评价以及相应度量模型的出现,已经成为网络信息生态研究领域中最迫切的需求之一
无线传感器网络作为信息技术的三大支柱之一,应用领域日渐增多。无线传感器网络是一种自组织网络,由大量传感器节点组成。传感器节点感知网络内各种物理或环境条件,且彼此间相互通信,具有非常有限的资源,尤其是能量方面。另外,无线传感器网络环境中有许多不可预见的因素,比如现场环境、衰减、盲区等,这些因素不仅会造成传感器节点故障,还会造成数据传输时产生错误和丢包的问题。本文主要是针对无线传感器网络的可靠数据传输