论文部分内容阅读
用户画像数据的分析和使用对于互联网业务的精细化运营具有重要意义。大量的用户基础信息和行为数据当中蕴藏着待挖掘的商业价值,可以依据这些底层数据给用户在各个维度打上标签,从而全方位地展示用户特征。将运营活动投放给精准的用户群体,可以在很大程度上扩大企业盈利,降低成本。本论文依据互联网公司日常所产生的大量运营数据,设计并实现了用户画像数据服务系统。该系统基于大数据技术进行离线数据与实时数据处理,完成了用户画像标签数据的生产、管理和使用。本文主要完成的研究与设计开发内容如下:(1)用户画像实时检索服务模块:系统主要应用key/value结构数据检索技术,实现了用户标签属性的实时查询功能,并且通过逻辑计算判定某一用户实体是否符合按照一定条件组合所配置的人群规则。(2)人群/地标圈定服务模块:此模块将Spark数据处理技术与Elasticsearch数据检索方法相结合,通过对JSON条件表达式进行解析与转译,实现了依据标签值组合圈定出符合条件的用户集合的业务逻辑,另外,系统平台支持人群创建、分享和删除等管理功能,并且在地标层面具有相同的能力。(3)标签统一收录服务模块:通过优化标签管理与审批流程,完成了规范化的标签体系建设,为集团提供了统一的标签元数据信息收录与管理服务,同时为数据生产过程提供依据。(4)数据生产与监控模块:为了得到满足数据服务能力的标准画像数据,系统在此模块利用Hive数据库和Spark计算引擎实现对离线数据的存储和处理,结合Kafka消息中间件技术、Strom实时计算框架和Tair数据库完成对实时数据的分发、过滤和记录。通过数据质量监控实现对异常生产情况的告警处理。系统服务器端基于Spring MVC和Mybatis开发框架,数据处理过程主要依托Spark作业定时调度完成,结合HDFS、Tair、Elasticsearch、Hive和MySQL完成数据的分布式存储。目前,系统经过测试验证后已经上线运行,在此期间为集团多个业务方提供了统一规范且有效的用户画像公共数据服务。