论文部分内容阅读
本文以2000年的人民日报为研究载体,共计24,181,518字,根据不同考察目的逐条分析标注,统计,得出数据,找出规律。本文先研究连词“而”识别规则,再对“形1+而+形2”格式的识别规则进行研究,最后,考察了“为A而B”格式的识别规则。文章共分8章部分,共五部分。
第一部分,从第0章到第2章,文章对前人的研究做了综述,对语料进行了预处理,对文章中所用到的变量,规则,条件表达式都进行了详细地说明。
第二部分,从第3章到第4章,文章详细地描述了含“而”的双音节短语在语料中所出现的分词歧义现象,并对它们进行了消歧规则的研究,从而作了语素“而”的识别规则。
第三部分,即第5章,文章对含“而”的多音节短语情况进行了考察并建立了两个词表,普通词表和常用短语表,分别收词90个和1158个。
第四部分,从第6章到第7章,文章进行了“而”和介词构成的特殊格式的识别规则研究。我们首先进行了“形容词1+而(又)+形容词2”格式的识别规则研究。在此基础上我们进行了“介A而B”特殊格式的计算机自动识别规则的考察,并以“为A而B”格式为特例做了自动识别规则研究。
第五部分,即结语部分。
本文的研究以实现汉语句法自动理解为目标,以语料库为基础,进行汉语句法规则的归纳和描述。研究的成果将促进语料库建设的发展、为现代汉语研究提供新的课题并促进汉语研究的现代化,同时也将推动汉语自然语言信息处理的研究向纵深发展。