自然语言处理及其智能搜索引擎模型的设计研究

来源 :兰州理工大学 | 被引量 : 6次 | 上传用户:dd2010875
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文系统地研究了自然语言处理的方法和目前该领域的理论、技术,深入研究了汉语自动分词方法,对常用的各种分词方法做了比较研究,改进了MM方法,提高了切词效率,详细阐述了分词所用的词表结构;广泛研究了句法分析理论,通过对句法理论中各种文法特点的比较,得出2型文法最适合于描写自然语言的结论,给出了应用于句法分析的相关算法。 通过对自然语言处理理论的研究,设计了一个以自然语言处理为核心技术的搜索引擎模型——智能搜索引擎模型,给出了该引擎模型的体系结构。该模型主要由知识库、自然语言处理器、索引库、用户接口等组成;给出了模型中各模块的功能及详细的算法。它的智能主要体现在知识库中所含知识的完备性和所用算法的高效性。它较传统的引擎技术有了很大的改进,首先它使用概念扩展来提高系统的招回率;在文档处理时它充分考虑了概念在文档中所处位置不同而其重要性也不同的事实,改善了引擎的查准率;提出并使用了检索矢量的动态生成技术,避免数据稀疏问题,以提高运行效率;在功能方面,利用个性化处理方式长期侦测用户的查询活动,判断用户的兴趣,自动馈赠信息给用户,同时使用了信息反馈技术实现人机交互。
其他文献
寄生虫在野生鸟类中感染相当普遍,在寄生虫的影响下鸟类可能发生疾病,造成生长发育停滞,甚至发生致死性的严重疾病等,因此成为保护生物学研究的热点问题之一。白头鹤(Grus mo
本论文采用单因素及正交实验法确立虎奶菇(Pleurotus tuber-regium(Fr.)Sing)发酵最适培养基组成及适宜的摇瓶发酵条件,并对发酵获得的菌丝体营养成分进行分析。采用热水浸提、乙醇沉淀、TCA脱蛋白、H_2O_2脱色、DE-52分级、Sephadex G-200分组分等技术方法从P.tuber-regium发酵菌丝体(mycelia)、菌核(sclerotia)中分离纯化到5个
敬钊毒素-Ⅱ(JZTX-Ⅱ)是一种从敬钊缨毛蛛粗毒的毒液中分离纯化而得到的由32个氨基酸组成分子量为3561.13 Da的多肽毒素,包含6个半胱氨酸形成3对二硫键,属于ICK模体结构。通过E
红外线,简称IR,是一种无线通讯方式,常常可以使用红外线进行无线数据的传输,能够取代复杂的连接线。自1974年发明红外线以来,它已经过风风雨雨二十多年的发展,如今,已经是一种很成熟
本试验采用单一因素试验和正交试验,结合SPSS数据分析,研究了沈农一号马齿苋中黄酮类化合物的提取方法:①在有机溶剂法提取沈农一号马齿苋中黄酮类化合物的试验中,当乙醇浓度70%,提
羊草(Leymus chinensis (Trin.) Tzvel.)又称碱草,隶属禾本科,赖草属,因其营养价值高,富含蛋白质,适口性好,抗旱,耐盐碱,耐贫瘠,抗逆性强,适应广等优点,对我国发展草原畜牧业和退化草地、荒漠化治理方面具有举足轻重的作用。近年来,由于自然环境变劣,荒漠化加剧,以及过渡放牧等不利影响,已对我国草地构成了严重威胁,严重制约了我国人工草地建设和天然草地的改良和沙化治理的步伐。