搜索引擎设计分析与结果聚类改进

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mmx1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是获取信息的有效工具,设计与实现搜索引擎是一项庞大的工程,要运用较多专业技术知识。本文力图通过实例分析,介绍搜索引擎的设计、实现、搜索结果聚类及其它与搜索引擎紧密相关的知识。文中指出了搜索引擎在提取摘要信息上存在的不足:仅选取关键词临近区域的语词并不具语义特征,为此提出了以文本的语义特征词来替换摘要信息。文中同时对语义特征词的提取进行了理论分析,并实现了部分功能。本文利用后缀数组来提取文档的语义特征词,因此对后缀数组的结构作了详细的阐述,提出以完全子串来表示文档的语义特征。文中实现了后缀数组的构造,左、右完全子串及完全子串的提取。本文还对搜索引擎的聚类过程、以及常用的聚类算法进行了比较,并对基于奇异值分解的文本聚类算法---Lingo作了详细分析。修改了Nutch的体系结构以实现搜索结果的聚类。最后以我校内网作为爬行目标,给出了实验结果及其评价。
其他文献
传统的应用集成技术受软件开发模式和系统集成方法的限制,造成了企业的各系统间紧密耦合的状态,不利于企业的系统升级和拓展。另外传统的企业应用集成技术主要是为了实现企业内
计算机科学技术日新月异的发展,对存储器的集成度、读写速度、可靠性等方面提出了更高的要求。在这种形势下,传统存储器如SRAM(Static Random Access Memory,静态随机存储器)
双目视觉由于仿照人类视觉的立体感知过程,成为计算机视觉领域的研究热点。摄像机标定是双目视觉中最基本而又最困难的步骤。在立体视觉的激光扫描测量系统中,物体的空间坐标与
本文主要研究医学图像预处理和三维重建技术的若干关键技术,并分析了跨平台的医学图像三维重建系统的设计思路。医学图像三维重建,是计算机图形学和数字图像处理技术在生物医
网上教育已成为了现代教育发展的一种趋势。而考试是教育的一个重要组成部分,教育的网络化必然要求考试的网络化。计算机网络考试适合了目前社会的网络化趋势,必将成为一种必
在我国,随着我国入世步伐的深入,钢铁行业的优惠政策逐步消除,我国的钢铁工业将面临严峻的挑战,竞争更加激烈。钢铁企业占地面积一般比较大,面积小的有几平方公里、面积大的
大规模存储集群中出现节点失效已成为经常性事件,通常使用副本或纠删码等冗余技术保证存储系统的可靠性。纠删码技术因其在相同容错能力情况下能显著降低存储空间开销,被许多
嵌入式技术的迅猛发展可以说是信息技术革命的一个缩影,近些年来,嵌入式系统的应用不再仅仅局限于工业范围,越来越多的人考虑将其应用到生活的方方面面.随着嵌入式系统功能的日益
随着Interact的迅速普及和发展,Web技术与数据库技术的结合使得传统的管理信息系统的开发模式发生了很大的变革。本文对分布式动态Web应用系统的不同开发方案和技术进行了系统
云存储的迅猛发展给用户带来便捷的同时,也带来了许多的安全性问题。在云存储环境下,数据拥有者把数据存储到云端,数据的控制权不能受到保证。数据加密和控制数据的访问权限是保