论文部分内容阅读
本文系统地研究了自然语言处理的方法和目前该领域的理论、技术,深入研究了汉语自动分词方法,对常用的各种分词方法做了比较研究,改进了MM方法,提高了切词效率,详细阐述了分词所用的词表结构;广泛研究了句法分析理论,通过对句法理论中各种文法特点的比较,得出2型文法最适合于描写自然语言的结论,给出了应用于句法分析的相关算法。 通过对自然语言处理理论的研究,设计了一个以自然语言处理为核心技术的搜索引擎模型——智能搜索引擎模型,给出了该引擎模型的体系结构。该模型主要由知识库、自然语言处理器、索引库、用户接口等组成;给出了模型中各模块的功能及详细的算法。它的智能主要体现在知识库中所含知识的完备性和所用算法的高效性。它较传统的引擎技术有了很大的改进,首先它使用概念扩展来提高系统的招回率;在文档处理时它充分考虑了概念在文档中所处位置不同而其重要性也不同的事实,改善了引擎的查准率;提出并使用了检索矢量的动态生成技术,避免数据稀疏问题,以提高运行效率;在功能方面,利用个性化处理方式长期侦测用户的查询活动,判断用户的兴趣,自动馈赠信息给用户,同时使用了信息反馈技术实现人机交互。