论文部分内容阅读
随着旅游业与交通的迅速发展,旅行信息爆炸性的增长,旅行数据已经形成一个巨大的海量信息空间。如何快速、准确、方便地对日常所积累的反映旅客信息的海量旅行数据进行客户关系分析,对于分析旅游市场经营状况、预测旅游业对相关行业影响、调整旅游业宏观政策具有极其重大的意义。本论文针对海量旅行数据的挖掘分析开展了研究工作。主要工作包括:1)提出了一种基于约束关联规则的旅行数据并行挖掘算法。该算法可解决由于海量旅行数据频繁项目集较长,导致现有数据挖掘分析方法难以应用的问题。算法可根据旅行数据主要特点来很好地组织和挖掘各种旅行数据,并可针对某一特定地域、某一特定人群或某一特定需求提供更有价值的信息。2)为应对旅行数据客户关系网络大规模和动态的特点,提出了一个基于动态链接的可视化分析框架(作者参与部分核心功能的设计与实现)。框架实现了高效的网络分析算法,主要包括:大规模网络的统计分析,网络中节点重要性打分与作用分析,网络中社团的发现与展示,大规模网络的可视化展示等,从而可更有效地分析海量旅行数据中人物关系。3)在1)2)的基础上,实现了一个基于云计算技术的海量旅行数据分析系统。该系统基于Hadoop平台,集成了针对旅行数据的关联规则并行挖掘算法,提供了基于动态链接的可视化分析框架,可为用户提供对海量旅行数据更加有效的分析。该系统面向实际应用,可支持从数据预处理、数据管理、数据挖掘到最终决策支持的全部处理流程。论文还采用了海量真实旅行数据,验证了系统及所提供方法的高效性和有效性。