论文部分内容阅读
多词表达是由若干个具有一定的句法和语义关联的词汇构成的意义相对完整的语义单元,跨越了语言当中意义相对完整的词的边界。随着自然语言处理研究的深入和发展,多词表达开始成为自然语言处理的一个研究热点。但是,研究的语言多集中在印欧语系,汉语由于不具备天然的词边界并且词的边界本身就比较模糊,多词表达的研究则集中在特定结构的词的组合的发现上。因此,利用对齐双语语料进行汉语多词表达的研究,可以利用印欧语言的边界来帮助确定汉语中完整语义单元的边界。基于以上考虑,本文提出一种基于中英文双语语料获取非特定结构的汉语多词表达的方法,实验表明,该方法在规模较小的语料上也能够获得不错的抽取效果。该方法包含两个阶段:首先是基于双语语料的汉语多词表达候选的抽取。基于汉英双语语料库,利用汉语到英语词汇的多对一现象,以及英语中边界明确且意义相对完整的词的信息来抽取候选的汉语多词表达。由于这阶段只是利用词位的对应信息,因此抽取的多次表达没有受到结构约束。在获得候选的多词表达之后,基于多种技术进行筛选,最终得到最后的汉语多词表达。其中,首先利用邻接关系、词数等规则信息进行噪声的过滤,然后选用互信息(MutualInformation, MI)、t-检测值(t-value)、对数似然比(Log Likelihood Ratio, LLR)等统计量进行进一步的筛选。