基于文本的图片搜索引擎的研究

来源 :同济大学 | 被引量 : 11次 | 上传用户:kimimoomoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上图片资源的单日益丰富,人们对Web图片检索的需求也日趋强烈。基于文本的Web图片检索技术,是人们当前检索WEB图片的主要手段。尽管已有若干使用该技术的Web图片搜索引擎产品投入实用,但目前的基于文本的图片检索技术还有待完善,主要体现为:对Web的复杂性理解不够,使用固定的模式提取文本,常常以偏概全,提取效果不佳;对影响词条权重的因素考虑不够,权重模式较粗糙;围绕词条组织索引,通过字匹配实现查询,导致了较严重的同义词和多义词问题。对此,本文做了有针对性的研究:针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。
其他文献
从医疗卫生领域整个产业链来看,不管是上游还是下游,医院都是强势一方,有充分的话语权。医院主要从三方面补偿自身经营支出:政府补贴、提供劳务收费和出售药品收入,其中药品
20世纪二三十年代,经过五四新文化运动的洗礼,伴随着社会的发展、诸多社会团体的不懈努力,与妇女婚姻、家庭、教育、职业等生活息息相关的旧观念以及生活陋俗逐渐被时代淘汰,
2007年2月26日,温家宝总理在国务院常务会议上指出,我国航空工业已经具备发展大型飞机的技术和物质基础;并表示中国将把大飞机研制作为国家战略,使大飞机的设计制造发展为有
随着信息技术的发展,智能交通系统和数据挖掘都成为研究热点。智能交通系统基于GIS(Geographic Information System)技术的应用和发展,拥有了庞大的空间数据,如何充分利用这
除抗体和免疫细胞外 ,一直被忽视的另一先天免疫系统受到重视——
<正>最近,习近平总书记对王继才同志先进事迹作出重要指示,强调要大力倡导爱国奉献精神,使之成为新时代奋斗者的价值追求。王继才生前是江苏省灌云县开山岛民兵哨所所长。198
自1955年第一家软件公司CUC的第一个项目开始,经过了半个多世纪的发展,软件业从无到有,迅速崛起。如今软件业如日中天,全球IT业硬、软件(含服务)的比重已达4:6。但中国IT业则
<正>为保护电梯设备,一旦遇到电梯底坑进水时,采取如下办法进行处理。一、当电梯进水时,首先关闭主电源,防止电气短路,避免设备损坏。同时采取溜车的方式,将电梯停于最高层,
目的探讨吸烟对缺血性脑卒中患者执行功能的影响。方法选取河北联合大学附属医院神经内科缺血性脑卒中患者467例,按吸烟指数分为不吸烟组、轻度、中度、重度吸烟组。应用威斯