论文部分内容阅读
随着计算机技术和网络技术的飞速发展,现有的搜索引擎虽然采用了各种方法来提高信息的检索精度,但是相关的文档和不相关的文档仍相互混杂,给用户带来了很大的负担。因此,如何快速准确的获取有价值的信息一直以来是搜索引擎富有挑战性的课题。本文在基于搜索日志的基础上,对名词短语词典的构建进行了研究。 首先,介绍了名词短语的基本知识,对日志中的名词短语进行了定义,同时描述了搜索同志语料的特点,并给出了系统结构及流程。 其次,根据现有的方法,从理论和实际的角度出发,提出了一种基于统计和规则相结合的名词短语识别方法,即二元统计模型、互信息和具体的规则知识。人工校对是语言资源建设必不可少的一个环节,在计算机自动统计的基础上,制定了名词短语校对过程中的加工规范,确保名词短语词典加工的一致性。实验取得了很好的识别效果,F1值达到85.49%,从而也进一步证明了统计方法和规则方法相结合的有效性。 最后,提出了“N1+N2”型名词短语的识别方法和校对方法:提出了“A+N”型名词短语的识别方法和校对方法;提出了“B+N”型名词短语的识别方法和校对方法。研究了“N1+N2”型、“A+N”型和“B+N”型名词短语中各组成要素的特点,详细地描述了这三种类型名词短语在搜索日志中所体现的句法功能。通过列举搜索日志中的大量例子,分析了用户的行为以及用户的检索规律。搜索日志中名词短语的研究,为搜索引擎用名词短语词典构建奠定了坚实的理论基础。