基于Lucene的全文搜索引擎的应用研究

来源 :贵州大学 | 被引量 : 2次 | 上传用户:zxcvbnmzhaowei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去几年里,Internet的资源迅速增长,使web发展成为包含多种信息资源,站点遍布全球信息服务网络。在这样的大环境下,网络上出现了很多商业性的web搜索引擎,如Google、百度、sougo等,他们极大的方便了网络用户。但是由于他们是商业性质的,他们的关键技术对于外界是保密的。为推进搜索引擎技术的发展,Apache基金会jakarta推出了一个开源的全文索引工具包Lucene。本文对搜索引擎的原理、组成、系统结构、工作流程等方面做了详细的分析和研究。搜索引擎的未来发展方向是个性化和专业化。对于不同类型的用户群搜索相同的内容将得到不同的更适合用户的搜索结果,这就是搜索引擎的个性化;而专业化则是指搜索引擎面向的是更加具体的垂直方向,这样对于搜索的精确度更加准确。在理论的基础上,本文利用Bot包实现网络机器人的开发,从“酷讯网”爬下网页解析出所需的内容建立索引,同时基于Struts+Hibernate+Spring的J2EE框架搭建搜索引擎Web平台,利用lucene实现检索和索引的功能。本系统使用的Bot包是Jeff Heaton开发的一个Bot工具架构包;Lucene是Apache软件基金会的一个开源项目,完全由java实现,适用于需要全文搜索能力的应用程序,并具有良好的跨平台能力。
其他文献
图像分割是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。它是从图像处理进到图像分析的关键步骤,也是进一步图像理解的基础。图像分割技术的发展与许多其它
排样问题是指在下料的过程中尽量减少材料的损失,使材料的利用率达到最高。它广泛存在于加工生产中,如板材切割、集装箱装载、服装和家具制造等。解决好这一问题,不仅可以节
论文从工程实践的解决方案出发,论述了在ARM9嵌入式系统下进行3D程序开发和优化的具体方法和相关理论。论文首先介绍了嵌入式系统的相关概念和特点,并重点介绍了当前在ARM9嵌
近年来,随着芯片工艺和嵌入式技术的发展,视频监控开始向数字化、网络化、嵌入式化方向发展。传统的嵌入式网络视频监控系统的软件开发主要还是使用面向过程的结构化的方法,
在线教育模式的改变,导致了用户量的急速增长和视频资源的迅速增加,给存储以及系统的整体性能带来了考验。如何合理的进行数据的存储以及高效的给用户返回所需的数据成为了问
面对规模庞大的在线交易系统以及巨大的竞争压力,物流公司需要不断提升自身的服务质量以及降低成本。车辆路径问题为物流公司规划合理的配送路线,对降低物流公司的运输成本和
海量URL的高效存储和快速访问是高性能Web爬虫的关键技术。现有的海量URL数据管理技术大部分是基于B树或B+树索引结构的。B+树索引的特点是支持动态操作,其更新速度很快但是
随着网络技术和网络打印机的不断发展,人们在通过网络打印获得极大方便的同时,也面临着更为严峻的安全问题。本文通过对网络打印机安全这一空白领域进行研究,旨在通过分析网
嵌入式操作系统eCos(embedded Configurable operating system)是源代码公开的可配置实时操作系统,系统运行稳定可靠、功能体系结构完善、开发成本可控,具有高度可配置、可扩
在物联网与移动互联网不断发展的今天,人们对室内定位导航的需求不断增加,室内定位问题也得到越来越多的研究。由于室内无线局域网(WLAN)的普及与完善,基于WLAN的位置指纹定