【摘 要】
:
随着Web信息的急剧增加,用户如何准确、快速有效地从海量Web信息中提取所需信息,已成为当前急待解决的问题。搜索引擎技术是解决用户检索海量Web信息的有效途径之一。目前,搜
论文部分内容阅读
随着Web信息的急剧增加,用户如何准确、快速有效地从海量Web信息中提取所需信息,已成为当前急待解决的问题。搜索引擎技术是解决用户检索海量Web信息的有效途径之一。目前,搜索引擎技术已成为信息检索领域的研究热点。搜索引擎是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。为了满足日益增加Web站点上的信息检索需要,本文将搜索引擎技术运用到Web站点的信息检索中,采用Robot搜索引擎的结构,实现了基于Robot的采集程序;用改进的Lucene.net工具包实现了Web信息的倒排索引库;并结合ASP.NET为用户提供友好的检索界面。在信息采集过程中,本文采用Bloom Filters算法高效地实现了URL消重,采用多线程技术实现了并行的信息采集;在信息索引实现中,本文采用基于字符串匹配和双字哈希机制的中文分词技术,进一步提高了索引效率;在信息检索实现中,本文提出一种网页内容分析和网页链接分析相结合的页面优先度排序算法,并通过改进Lucene.net基本排序算法加以实现。本文提出的面向Web站点的搜索引擎,为用户提供了一个通用性强、易于部署和定制的Web站点搜索引擎,具有一定的理论和实用价值。
其他文献
本文以国家自然科学基金项目和北京市教育委员会科技发展计划重点项目为科研任务,对基于数据挖掘的旅游突发事件预警进行了研究。对旅游突发事件信息的分类算法进行了研究,改进
网络信息时代的到来,多媒体技术和微电子技术的发展使得许多传统媒体内容向数字化转变。由于音频、视频、图像等作品都能以数字形式获得,制作其完美的拷贝和恶意的篡改变得十分
本文使用展讯公司的SC8800平台设备,来实现远程控制系统中的图像采集系统。 在SC8800微处理器平台上,使用Threadx作为系统地操作系统,完成了视频数据的采集、压缩、存储和控
网格计算是下一代分布式计算技术,它为解决大规模的、复杂的计算提供了平台。要实现高效的网格计算需要解决许多问题,任务调度就是其中之一。网格任务调度的主要目标是在任务与
随着网络信息技术的迅猛发展,医疗数据信息化成为实现数字化医院的趋势,但是现存的医疗设备依然停留在单个或少数设备单独工作的模式下,这不但造成设备成本高昂,计算单元浪费,并且因为使用协议不统一,功能分散,很难实现数据的互通与融合,这样医疗服务的信息化优势很难凸显出来。本文重点研究了嵌入式医疗数据的传输技术,给出了一种医疗数据传输平台的新解决方案。系统采用C/S架构,由三部分构成:患者数据采集,数据集中
随着搜索引擎的发展,用户对于信息检索的需求也日益提高。为了更好的满足用户对于查询的需求,个性化检索技术应运而生。其主要是用于解决在信息检索时如何根据用户兴趣返回对
近年来ACM国际大学生程序设计竞赛(ACM InternationalCollegiate Programming Contest,简称ACM/ICPC)在国内高校中渐渐普及起来,该竞赛是由美国计算机协会(Association forCo
随着社会发展及人民生活水平的不断提高,营养与健康问题逐渐成为社会生活中的热点问题。应用计算机实现营养膳食优选目前越来越广泛地成为营养学和计算机科学领域令人关注的问
本体作为一种概念模型建模工具,能够用来表示知识,实现知识的重用和共享,从而达到应用知识的目的。因此,对本体的研究也就成为一项重要而迫切的课题。其中本体存取是本体的一项基