论文部分内容阅读
中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。首先在综合已有定义的基础上,将新词界定为不含命名实体的未登录词。本文将整个抽取过程分成候选新词集合构造和新词检测两部分。在构造候选新词集合时,为处理规模远超出内存的语料,设计了重复串抽取算法(Repeats Extraction Based Split,REBS)。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(Maximized Longest Common Prefix Interval, MLCPI)来完成抽取,另外在此基础上实现重复串抽取的同时归并子串。由于进行抽取时无需将全部数据导入内存,所以资源消耗较少;各集合间抽取工作互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行试验,结果表明内存消耗小于30M,抽取速度最快达每秒1.08M,并能高效地进行子串归并。为提高重复串抽取速度,本文对字串排序效率进行了改进,设计了一种线性时间排序算法,通过比较实验证明了该算法的高效性。新词检测阶段,在最大熵模型中,融合多项语言知识特征和统计特征,实现对非词垃圾串的过滤,并通过实验验证了该方法的有效性。为提高大规模语料下的新词检测速度,对左右熵特征的抽取效率进行改进,该改进算法充分利用重复串抽取的中间处理结果,能高效地对候选新词进行左右熵特征计算。最后在本文研究基础上,设计新词抽取算法,实现了一个新词抽取系统NWES。