论文部分内容阅读
根据CNNIC一月份发布的《第29次中国互联网络发展状况统计报告》显示,截至2011年12月底,中国网民规模突破5亿,达到5.13亿,全年新增网民5580万。互联网普及率较上年底提升4个百分点,达到38.3%。分析显示电子商务类应用继续稳步发展,包括网络购物、网上支付、网上银行、旅行预订在内的电子商务类应用在2011年继续保持稳步发展态势,其中网络购物用户规模达到1.94亿人,较上年底增长20.8%,网上支付用户和网上银行全年用户也增长了21.6%和19.2%,目前用户规模分别为1.67亿和1.66亿。目前IT系统的存储能力远远不足,就更不用说深入地挖掘和分析了。但要想使用这些数据并不是一件很容易的事情。本文将以推荐系统的设计为例提出一种综合的解决方案。在应对大数据和实时性要求的同时各大IT公司纷纷提出自己的解决之道,其中不乏优秀的系统和编程模式,如:google的hadoop技术框架,nosql数据库和HDFS分布式存储技术,mapreduce编程模式,以及mahout等。本文就将依据这些新兴技术框架改造传统的推荐引擎使之可以满足大数据时代的实时性需求,提高推荐结果的命中率。本文在提高推荐引擎(RE)的推荐精准度方面提出了,在传统的相似用户算法的基础之上进行改进的基于用户特性的相似用户计算的方法。从而充分考虑了用户自身的社会特性,提高的推荐数据个性化需求。并利用lucene平台进行具体的实现,在此基础之上还提出来推荐引擎的整体设计架构图。并对每部分拆分进行讲解。最后针对具体的实施过程当中出现的技术难点和关键点提出了两个切实可行的解决方案。分别是“基于redis+zookeeper的主从备份及单点故障自动切换技术”和“基于dubbo+lucene改进的索引数据自动分发技术”。