基于大规模语料的中文新词抽取算法的设计与实现

被引量 : 0次 | 上传用户:a447047964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。首先在综合已有定义的基础上,将新词界定为不含命名实体的未登录词。本文将整个抽取过程分成候选新词集合构造和新词检测两部分。在构造候选新词集合时,为处理规模远超出内存的语料,设计了重复串抽取算法(Repeats Extraction Based Split,REBS)。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(Maximized Longest Common Prefix Interval, MLCPI)来完成抽取,另外在此基础上实现重复串抽取的同时归并子串。由于进行抽取时无需将全部数据导入内存,所以资源消耗较少;各集合间抽取工作互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行试验,结果表明内存消耗小于30M,抽取速度最快达每秒1.08M,并能高效地进行子串归并。为提高重复串抽取速度,本文对字串排序效率进行了改进,设计了一种线性时间排序算法,通过比较实验证明了该算法的高效性。新词检测阶段,在最大熵模型中,融合多项语言知识特征和统计特征,实现对非词垃圾串的过滤,并通过实验验证了该方法的有效性。为提高大规模语料下的新词检测速度,对左右熵特征的抽取效率进行改进,该改进算法充分利用重复串抽取的中间处理结果,能高效地对候选新词进行左右熵特征计算。最后在本文研究基础上,设计新词抽取算法,实现了一个新词抽取系统NWES。
其他文献
计算机网络正日益渗透人类政治、经济、文化等社会生活领域,网络社会已经形成并处于高速发展状态。本文力图对网络社会的本质进行探悉。它是虚拟的社会交往空间、共享的交往
《内经》首次系统创立经络学说,并提出了络脉的概念。但是,《内经》中的络病和今天的络病含义还不完全一致。仲景对于络病病因、病机的认识和虫类通络药物的应用对后世的影响
在市场经济日益发达的今天,越来越多的商家开始动用各种手段实施产品的搭售行为。对于搭售行为,不能一概而论,认为都违反法律,应进行有针对性的分析,区别哪些搭售行为是违法
气候变化与国际贸易之间的关系问题是当前国际贸易领域研究的热门话题之一。本文从国际贸易对气候变化的影响、气候变化对国际贸易的影响、国际社会气候变化的应对措施对国际
为了考察各参与比对的实验室之间机油滤清器差压-流量特性结果的一致程度、实验室仪器设备的准确度、检测人员技术水平及数据处理的准确程度,确保各实验室的关键量值范围及不
<正>近年来脑卒中的发病率呈不断上升趋势,约45%患者合并吞咽困难需要留置胃管[1],早期的营养支持不仅可保证患者的营养摄入,减少体能储备的消耗和瘦体组织(骨骼肌)流失,且能
<正>失禁相关性皮炎(IAD)是大小便失禁引起的并发症,是失禁患者常见的问题[1]。因肛周和会阴部经常受尿渍及粪便的不良刺激而引起出现瘙痒及不适感甚至造成皮肤破溃及感染等