论文部分内容阅读
随着计算机网络技术的飞速发展,Internet已经进入了人们生活的每一个部分,无论是工作、学习、还是休闲娱乐,网络上大量丰富的信息为人们带来了极大的方便。而面对海量信息,人们对文本检索的要求越来越高。作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,其中如何处理用户输入的短句,是智能检索的重要方向。 在对现有的几种信息检索模型进行了分析研究,并详细描述了统计语言模型的算法思想,简单介绍了信息检索中目前常用的检索性能评测方法和评价准则。 在对现有检索模型的分析基础上,基于统计语言模型思想给出了一种基于短句检索的自然语言检索模型。利用中文分词、词性标注、句法分析和词语加权等自然语言技术对用户输入的短句中所蕴含的搜索意图进行了深入的挖掘。并在对词性和句子结构进行理论分析的基础上,给出了一种基于词性和句法结构信息的关键词加权分析方法;在返回结果排序方面,结合多种信息给出了一种新颖的面向短句查询的排序算法。 通过对现有句法分析方法的分析研究,针对三种无关性假设,在传统的chart线图算法基础上,给出一种引入祖先节点信息和位置信息的句法分析算法,并对比中国科学院计算所开发的Prop系统进行实验比较。 最后,将设计的基于短句查询的信息检索模型应用于系统中,开发出原型系统,并解决系统实现中涉及的若干问题,并对实验结果和实际运行结果进行了分析,进一步以实验验证了利用此模型用户进行短句搜索的有效性。