论文部分内容阅读
随着互联网的大范围普及,网络终端和上网方式越来越多,网络购物也得到的很大的发展,网络购物的概念也日渐深入人心。由于网络购物的人数以及交易数量的大量增加,促使了网络交易平台和网上交易商城的大量出现和发展壮大,使得广大网络购物买家的可选商家、平台和商品数量成倍的增加。但是,随之而来的是买家如果想要买到称心如意的商品需要浏览大量的网站,对比价格和商品,带来了很大的时间成本。对应这种情况,兴起了一批导购网站。但是这些导购网站只是单纯地将多家的商品集合在一起进行再展现,并没有对其进行进一步的处理和归类,以方便用户的购物行为,而且展示的商品带有极大的选择性。本系统设计的目的就是解决以上这些困扰买家的问题来改善网络购物体验。系统实现了如下的功能来帮助网络购物买家获得更好的购物体验:首先,采用灵活、易扩展和修改的数据抓取设计,对来自不同网站的所有商品信息进行获取,使得系统能够覆盖大多数主流交易网站和交易平台的商品,同时也可以在第一时间涵盖新兴的购物网站或购物平台,给用户更大的选择空间。其次,在用户搜索商品时,与传统平台返回大量重复信息相比,本系统返回的结果会尽量多的覆盖不同的品牌、型号和产品的结果,提供用户最多的有用信息。在用户的搜索目标相对确定时,系统会返回大量不同商家、平台卖家的商品,以供买家用户作出更好的选择。并且根据不同商家、卖家的信誉和服务,同样产品不同品牌的受欢迎程度等等信息,管理员可以通过配置来使得更为买家所青睐的商家、卖家、品牌商品等信息排在更为靠前的位置,方便买家用户的选择。第三,实现了一个自动运行并可人工干预的灾备系统。系统在每一次获取数据的时候,都会将旧的数据保留作为灾备信息,在获取得到的新数据发生异常时,会自动切换到最新的正常数据,来保证系统的正常运行。第四,实现了一个不限硬件机能、可以不断改进的缓存体系。管理员可以通过配置来调整系统的资源占用量,以适应各种硬件机能,管理员可以通过调整静态缓存来改进系统效率。系统本身也会通过动态的缓存来不断提高系统的工作效率。本文采用Nutch和Lucene这两个高性能、可扩展的开源信息检索架构作为基础进行开发,解决了上述问题。同时采用基于知识库的实现方式,使得系统在使用的过程中,管理员可以通过改进知识库的方式来不断的改善用户表现。