论文部分内容阅读
随着3G网络的发展,移动互联的时代已经到来,作为通信运营企业要想在这场移动互联网大战中占有一席之地,除了提高各自网络接入移动互联网的能力,还应寻求摆脱被各大互联网公司管道化的出路。这其中包括提升自身移动终端产品质量和数量,大规模开发各类型适合终端承载的应用程序,搭建3G体验环境,推广音乐、阅读、视讯、游戏、动漫、应用商城等基地产品的整合营销,提高各自在市场中的渗透率。但是,以这种策略很难在短时间内与更有实力和经验的互联网公司抗衡。在这种局面下,可以通过自身掌握的用户上网信息,如上网偏好,上网时段等信息将用户分类,为客户提供个性化的服务;或是推出按偏好域名分类的流量套餐,用户可根据自己的喜好选用适合自己的套餐,同时还可以与各个互联网公司合作,摆脱只做管道的尴尬局面。即主动对用户的流量进行分析和经营,将会为运营商带来巨大的利润。针对这一背景本研究利用数据挖掘技术,以开发电信行业的增值业务的有效的营销为目的,研究活跃手机上网用户特点、性质和规律,提供商业战略决策科学依据。本文主要从如下方面开展了研究工作并取得一定的研究成果:1.数据提取与清洗方法研究。海量手机客户上网随机信息中包含了大量知识的统计和规律性数据等有效信息,但同时也包含有大量无效数据。无效数据无疑是数据挖掘的干扰信息源,清洗无效数据与提取有效信息是数据挖掘处理基础工作。针对该研究的目标和数据源的情况,以关系数据库作为数据源,采用多种提取技术相结合的方法,提出手机上网数据集抽取模型,并采用信息过滤的方式对数据进行初步清洗,得到满足数据质量标准的初始数据集。2.数据预处理及离散化方法研究。再优秀的数据挖掘算法,如果没有完整准确的训练数据集,也不可能得到一个好的模型,而要保证训练集的完整准确性,一般需要先对数据进行预处理。另外,实际应用中,得到的数据大部分都是连续性的,但是在数据挖掘中连续性的数据往往会影响挖掘的效率和挖掘结果的简洁性,因此,大多数的数据挖掘工具要求数据集的属性为离散化类型。针对该问题,本文分析了现有的流行的预处理技术和离散化技术,并应用于手机上网数据集,得到更为满足挖掘要求的规范化数据集。此外,依据“手机上网客户分析”挖掘主题的特性与特征,提出一个改进的启发式离散化方法,并通过试验证明与另外几个已存在的离散化算法相比该算法拥有较高的分类精度。3.模型建立并优化。数据挖掘的最终任务是建立一个有效的模型,因此,如何选取适合的算法建立模型成为众多专家和学者研究的问题,本文通过将几个常用的分类算法应用于手机上网数据集建立模型,并通过比较分析选取C4.5算法建立用户上网偏好模型。然后又进一步对模型进行优化,对手机上网客户群体和复杂业务环境下的手机上网客户数据模型的建立给出若干规则的建议,对手机上网客户特征进行更深一层的挖掘和分析。4.决策树剪枝技术研究。数据挖掘的结果应该以简洁明了的方式展现给用户或者领域专家。如果生成的规则复杂而难懂,那么,数据挖掘任务基本是失败的。优秀的决策树剪枝算法能够在保证规则的精确性的基础上,尽量是其简洁易懂,因此,本研究从现有的剪枝技术展开分析,并提出一个基于MDL的带阈值的剪枝算法。并通过试验数据证明该算法能够有效地减小生成树的规模。针对本文提出的改进的离散化算法和决策树剪枝算法,并利用标准J48(C4.5)算法作为分类器,在WEKA平台进行仿真实验,试验结果表明,新算法能够有效提高手机上网流量分析模型的总体性能,建立的数据模型能够较好的完成用户分类,为决策者制定营销策略提供数据支撑,具有较高的应用价值和较好的市场前景。