面向网上订餐的垂直搜索引擎的设计与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:gjpttkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使得互联网早已经成为了全球信息传播的重要平台。截至2015年,中国的网民数量达到了6.68亿,网站数量达到了413万家,这些网站中涵盖了几乎所有领域。传统的餐饮业在互联网的大潮中同样面临着一个巨大的挑战。人们的饮食习惯也在逐渐向着随时随地送餐到户的方向发展。特别是一些在校学生,获取资讯的方法越来越依靠互联网。虽然我们国家的网上订餐业务目前还处在一种刚刚起步摸索的时期,与国外相比还有一些差距,但是它的研究前景却是十分可观的。然而如何让用户在海量数据里面快速、精准地找到自己所需要的餐饮信息已经成为亟待解决的问题之一,这也就是本论文的目的所在。本文通过对网络爬虫策略的研究,提出了一种改进的多策略融合的网络爬虫。当前的网络爬虫策略大体分为两种,一种是基于URL链接结构的爬虫策略,另一种则是基于页面内容的爬虫策略。前一种策略只是考虑了页面间的关系,而没有考虑与搜索主题的相关度,而后一种策略则恰恰相反。本文根据这两种策略提出了一种多策略融合的网络爬虫,改进后的网络爬虫具有更高的查准率。本文分析了Lucene自带的搜索结果评分机制并指出了其在本系统中的不足,然后提出了一种改进的搜索结果评分机制。该评分机制中,主要考虑了一些实际需求,比如月销售量、餐厅评分和是否卖完等因素。这个改进的评分机制是在Lucene自带的评分结果上计算出来,如果月销售量大、餐厅评分高和没有卖完的搜索结果评分会相应高一些,也就是最后的结果排序会比较靠前。这种评分机制不仅考虑了页面的相关度还考虑了系统中的具体参数,这也就更加的符合用户的实际需求。本文根据前面的研究分析与改进,设计和实现了一个面向网上订餐的垂直搜索引擎,并进行了一系列的功能测试。测试结果表明改进的爬虫具有更高的查准率;改进后的评分机制更加的符合本系统的实际需求,能够更好地提升用户的体验值;实现的搜索引擎具有更加专业的搜索结果。
其他文献
解难事,做一名堂堂正正的村干部2001年,李凤祥刚上任时,老和村还是个贫穷、落后的村庄:村民缺乏致富门路,年人均收入不足2000元;村“两委”成员工作散漫,群众到村部办事常常找不到人
2013年5月1日,由中国井冈山干部学院和国家社会科学基金重大项目"保持党的纯洁性研究"课题组联合举办的"新民主主义革命时期党的纯洁性建设研究"学术研讨会在中国井冈山干部学院
随着朝鲜不断地挑衅国际社会神经,以美国为首的西方国家可能加大对朝鲜的新制裁。而自朝鲜成立以来,美国已数次对其进行制裁,却没有一项真正令朝鲜永不能翻身的措施。现在我们就
目的探讨高同型半胱氨酸血症(HHcy)对急性脑梗死(cI)患者近期预后的影响,以期为脑梗死临床治疗提供参考依据。方法:选取我院收治的急性脑梗死患者,测定患者空腹血浆Hcy浓度。根据血
<正> 一、品种选择 应根据地理位置不同,选择适宜的品种。原则上南方地区宜选择南方品种,北方地区宜选择北方品种。南方品种有处暑红、大红袍、二新早、蜜蜂球;北方品种:华丰
<正>为贯彻落实党的十八届三中全会关于推进机构编制工作科学化、规范化、法制化要求和中央严控机构编制总量精神,10月14日至15日,中央编办在宁夏银川召开了部分省、自治区、
随着互联网的快速发展,近几年,传统的通用搜索引擎已不能满足人们对于专业化、个性化的信息需求,因此建立面向特定领域的垂直搜索引擎迫在眉睫。主题网络爬虫在主题搜索引擎
记者日前从发改委、商务部、工信部、能源局等多个部委获悉,相关部门正在加紧研究第一批取消和下放的行政审批事项的后续落实工作。研究内容涉及包括水电、火电、风电等新能源
随着国家西部大开发战略实施,大力推进宁夏内陆开放型经济试验区和银川综合保税区建设,宁夏清真产业发展面临前所未有的机遇.从宁夏清真产业相关专利数据分析入手,以此为视角
WinZip可以说是压缩软件中的一个杰出代表。它凭借其强大的功能一直深受人们的喜爱,如果我们再能掌握其中的一些操作技巧,相信一定能够高效使用WinZip了。