论文部分内容阅读
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语料库的无指导方法,同时实验了汉英双语信息的集成方法、多语体多窗口的集成方法,并提出一种以相似词作特征的新方法,相似度计算结果得到了显著提升。最后将词语相似度结果应用到了句际关系识别中,取得了较为理想的效果。 本文主体有五个部分: 1)基于大规模语料库进行相似词自动提取,使用向量空间模型,对方法中各参数进行了评估比较,包括语料语体(新闻vs网络)、上下文表征形式(窗口上下文vs依存关系)、特征权值选择(tf,bool,idf,tfidf,PMII)、相似度计算方法(cosine,LIN)等。实验证明,使用网络语料,窗口上下文作特征,互信息(PMII)作特征权值,cosine计算能得到最好的结果。 2)在1)的基础上,使用汉英双语信息,将目标词、相似词均翻译成英文,找出LIN中对应的相似度值和排序,得到英文信息的序列。将两个序列集成,实验结果证明双语间有互补作用,可进一步提升相似度计算的准确率。 3)在1)的基础上,使用不同语体不同窗口生成三个词语相似度序列,对三个序列使用平均分数、平均排名、调合平均排名等方法进行集成,实验结果证明不同的序列间有互补性,且准确率的提升与不同序的重合度一致。 4)提出了新的表征词语的特征-相似词。以相似词作为特征,相似度得分或排序作为权值,构建特征向量,计算向量间相似度从而得到词语相似度。实验证明,该特征提供了新的有用信息。 5)最后,将词语相似度计算结果应用于句际关系识别上,对并列与主从(非并列)关系进行了自动区分。实验了句子相似度、最大公共子串、最大动词周边匹配、加重特定词语复现、区分词性权重等方法,最终,集成几个有效方法取得了最好的效果。