【摘 要】
:
中文命名实体识别是中文自然语言处理技术的基础理论,而在命名实体中,人名是识别难度最高、所占比例最大的一个类别。人名是影响分词准确度的重要因素,而且分词系统中通常具有人
论文部分内容阅读
中文命名实体识别是中文自然语言处理技术的基础理论,而在命名实体中,人名是识别难度最高、所占比例最大的一个类别。人名是影响分词准确度的重要因素,而且分词系统中通常具有人名识别的模块。因此中文人名识别的工作是具有重大意义的。本文针对汉语文本中人名的识别方法进行了深入的研究,提出了下列两种人名识别方法:(1)在传统的只统计人名用字的朴素贝叶斯分类方法的基础上,将人名上下文边界融入其中,并利用从大规模语料库中统计的人名用字、边界模板频率对人名定界,再通过扩散操作召回遗漏人名。该方法简单易行,并能取得很好的效果。(2)首先运用条件随机场模型对句子进行人名用字角色标注,然后使用基于转换的错误驱动学习方法获得校正规则库,用来校正标注结果,最后将人名角色组合成人名。条件随机场模型在许多有关序列标记的研究中都能够取得很好的分类效果。使用错误驱动学习方法不仅能充分利用人名的上下文信息,而且可以处理好语料库数据稀疏的问题。
其他文献
近年来,随着人们生活质量水平的提高和计算机技术、通信技术及多媒体技术的发展,智能视频监控系统的应用日益广泛。但目前的智能视频监控系统大多是基于PC架构的,具有监控场景布
圆形Packing问题是一个典型的布局优化问题,也是一个有代表性的NP难度问题,NP难度问题是现代计算机科学中难于求解的一类问题,对于该类问题,目前尚不存在经典数学要求的既精
网格被认为是下一代网络,其目标在于实现网络环境内的资源共享和协同工作,而实现资源共享和协同工作的关键前提在于有效地发现资源。因此,网格资源发现机制长期以来都是网格研究
随着各种新型遥感卫星传感器的不断涌现,可用的多光谱、高空间分辨率的遥感图像数据日益剧增。但由于观测的限制和设计的原因,各种传感器有自己的特性,所以图像融合要充分的利用这些传感器的特性,不仅可以弥补单一图像信息的不足,而且有效增强图像的信息分析能力。遥感图像融合是一门综合多种学科的学科。本文在基于像素级融合的基础上,以遥感图像中多光谱图像和全色图像为例,研究如何充分利用两者的优势,在多光谱图像保持光
本文着重分析了Web服务研究最核心的问题——发现与组合技术,指出了当前所存在的困难;并在分析、总结现有Web服务发现和组合技术优点与不足的基础之上,提出了-个Web服务发现和组
粗糙集理论是一种新的处理模糊和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。近年来在机器
计算机取证技术近年来获得飞速发展。与此同时,随着计算机犯罪的多样化以及民事调查类型的增多,计算机取证分析师却在多方面面临着挑战,如:海量数据、案件复杂程度的增加、取证结
随着网络流量快速增长,人们对带宽的要求越来越高。WDM网络被认为是下一代网络中解决带宽问题的最具潜力的光网络之一。网络编码打破了传统网络中处理信息的方式.在传统的网络
随着网络技术和存储技术的发展,以及多媒体应用的普及,互联网上音频数据的数量迅速增长。广播、音乐、电影/电视伴音、教学录音等音频资源目前都可以通过互联网获取。如何有
计算机模拟是研究光化学反应的一个有效手段,该方法可以在分子水平上观察化学反应,追踪分子运动过程。本文针对可用计算资源无法满足研究小组计算需求,而购买专用服务器价格