【摘 要】
:
伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联
论文部分内容阅读
伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联网发展必不可少的核心技术,它的作用越来越重要。然而现有的搜索引擎大多是集中式的,已经不能很好地适应网络的进一步发展,分布式技术是下一代搜索引擎的发展趋势。本文在分析传统搜索引擎技术不足的基础上,提出一种基于MPI(Message Passing Interface)的分布式搜索引擎系统。该系统主要由并行网页抓取和分布式建立索引两部分组成。首先,详细介绍了网页并行抓取的设计和实现,包括它的系统框架、主要模块、运行流程和URL调度算法。URL调度算法采用散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突。然后,通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。该方法以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。分布式中文搜索引擎架设在基于MPI的分布式网络结构之上,利用MPI良好的分布式特性,使搜索引擎从集中式走向分布式。采用静态和动态相结合的任务分配策略,提高了时间和空间效率并使系统易于扩展,实现了网页快速抓取和索引的建立与更新。该搜索引擎能更深度、更广度地搜索互联网上用户可用的信息,更准确、更迅速的返回用户查询结果。
其他文献
随着休闲经济的兴起和手机立体娱乐时代的到来,手机Flash动漫正逐步在全球形成一种产业,并被视为最有潜力的无线增值业务。目前一些高端手机上已经配置了Adobe公司提供的Flas
随着大规模复杂网络的迅速发展,在高速、宽带的网络环境下网络数据往往以数据流(Data Stream)的形式出现,这些数据或数据的属性必须按照顺序存取且只能被读取一次或有限次,而
企业环境的变化使业务流程日趋复杂多变,传统的信息系统无法实现流程的动态调控,当业务需求发生变更时,信息系统需频繁改造。面向服务架构和业务流程执行语言的出现,使得抽象
随着信息过载问题的日益突出,个性化系统受到了越来越多的关注。在个性化系统中,用户不需要主动提供自己的浏览意图,而是系统根据用户的历史行为,对其当前浏览行为做出预测。
文本分类在文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,文本分类已成为一种处理和研究文本的重要技术
接入网号线资源管理系统是电力通信业务运营的重要保障,也是电力通信资源管理系统中的重要组成部分,其建设和运行直接影响到电力通信业务运营的效率和质量。随着电力通信的发
基于字幕的视频检索是一种方便快捷的检索技术,这种方法既具有文字检索方法简单快捷的特点,又具有基于内容检索方法的查找精确的特点,而新闻标题字幕定位是基于字幕的视频检索的
长久以来,对于水下施工过程的监测问题就是相关研究及工程技术人员非常关心的问题。近年来,随着国民经济的快速发展和城市规模的快速扩张,各种大型水下基建工程越来越多,各种
随着人脸识别的盛行,越来越多人开始关注计算机对人脸表情的识别。而这其中人脸检测与特征提取在模式识别领域中占着重要的地位。目前针对表情识别中的人脸检测和特征提取涌
燃煤锅炉炉膛火焰温度场的测量与重建一直是一个难于解决的问题。目前还没有建立非常有效的大型锅炉炉膛火焰温度场测量手段。探讨了声学法燃煤锅炉炉膛火焰温度场的检测技术