基于小波变换模型的中文检索系统

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yaya_tush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网信息量正在以指数级的速度增长。人们面临着一个如何在海量的内容中准确、快捷的找到自己所需信息的问题,于是检索系统,特别是中文文本检索系统,正在受到人们越来越多的关注。目前国内外研究组织和公司已经提出了多种文本检索模型并研发出了相应的搜索引擎,这些搜索引擎对于要在网络上获取相关知识的用户起到了一定的导航的作用,但是同时也有不少局限性:返回大量的垃圾信息,重要信息丢失等。 本文内容主要涉及到中文文本检索系统中的检索模型和中文分词两项关键技术,对这两项技术目前常用的算法进行分析,指出其中的不足,提出了新的算法,并进行了实验分析。 本文主要研究成果包括: 1.对当前流行的三种检索模型进行了介绍,详细分析了它们的计算原理和依据,指出了它们在实际应用中的优点和不足。 2.基于统计模型和小波变换提出了一种新的文本检索模型。其主要优点在于:一,利用小波变换把输入信号引入到频域进行处理,消除了交叉比较运算的巨大计算量;二,在进行相似度计算时,同时考虑了检索词的出现次数和出现位置因素。理论和实验结果表明该方法能有效提高检索查准率。 3.针对Lucene软件包中文分词的不足为其添加了正向最大匹配分词算法,并以小波变换检索模型为核心建立了索引机制和相似度计算方法,配合Lucene提供的页面解析器、搜索模块等建立了一个小型的检索系统,实验证明该系统能够实现较好的检索效果。
其他文献
随着计算机技术、信息技术和控制技术的发展,智能建筑获得了长足发展。如何把现场总线技术应用到智能建筑当中成为研究的一个重要课题。LonWorks现场总线是美国Echelon公司于
在经历了一个世纪的革新后,电视正向着数字高清的方向发展。在模拟电视时代,由于带宽的限制,电视采用隔行扫描的方式来播放视频,如果要在隔行扫描的电视上播放逐行类型的电影
公安机关有大量图片、音、视频档案(统称为音像档案),这些音像档案多数在较为常规环境下保存、调阅和传送。公安系统的信息化建设在音像档案管理方面也面临着许多新问题,其中
传感器网络是由传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术等多学科高度交叉组成的新兴前沿热点领域,是信息感知、采集和处理的一场革命。无线传感器网络通
三网融合是指电信网,广播电视网,互联网的高层业务应用的融合,是下一代网络发展的方向。高性能同轴电缆接入网技术(HINOC,HIgh performance Network Over Coax)在此背景下应
在深入研究电力线信道特点和信道编码技术的基础上,采用加性A类脉冲噪声模型表征电力线信道中的脉冲噪声,用LDPC码抑制脉冲噪声。针对电力线信道脉冲噪声的特性,对信道初始信
现阶段,国内电信运营商已经开始建设3G网络,cdma20001x EV-DO是我国应用的三代移动通信技术之一。如何利用现有网络,如何向3G演进,如何搭建3G网络,这些问题都将在网络规划中找到答
本文系统的研究了TeO2–Bi2O3系统玻璃在掺入重金属离子TiO2和Nb2O5后,玻璃的三阶非线性特性,及热稳定性等光学特性。论文的绪论简要地综述了碲酸盐玻璃的结构,研究现状及研
DAB是继AM、FM传统模拟广播之后的第三代广播,它是新一代的广播,具有CD级的好音质,可以提供便捷的数字信息服务。依据WARC-92标准,DAB系统的工作频率覆盖FM频段和L波段1452-1
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术具有频谱利用率高,抗多径衰落能力强,实现简单等优点,现已被广泛应用于无线通信系统中。但是它高峰平功