论文部分内容阅读
在维吾尔语信息处理中句子的相似度计算是一项基础性较强的工作,相似度计算已成为自然语言处理领域的研究重点问题。例如:基于实例的机器翻译系统、自动文摘系统、信息检索系统以及问答系统等。到目前为止维吾尔语句子相似度还没有形成一定的规模。本文在研究维吾尔语句子相似度的过程中,主要针对小学维吾尔语文教材中的简单句,根据由词语和短语构成句子的特点,依次对词语、句子等层次进行了相似度计算研究,其中重点分析了句子相似度计算。在此基础之上,本文提出了词语相似度计算、N-gram句子相似度计算、基于句子结构分析的句子相似度计算及改进的句子相似度计算等多元化的句子相似度计算方法,并通过实验分析,证明了该方法的有效性。本文完成的主要工作包括如下几个方面:1)研究了维吾尔语词语相似度及计算方法。词语相似度计算是句子相似度计算的基础,所以,本文对词语相似度计算做了详细研究。针对当前的词语相似度计算方法进行了阐述,并进行了改进,为下文句子相似度的计算做铺垫。2)在上述工作的前提下,本文对句子相似度计算进行了研究,并且对其进行了改进,提出了基于N-gram的句子相似度计算、基于句子结构的相似度计算及改进的句子相似度计算等三种方法,力求最终的句子相似度计算结果更为准确。3)设计并实现了小学维吾尔语文教材中简单句的相似度计算系统,并用该系统验证了本文提出的句子相似度计算方法的可行性及有效性。