电信数据挖掘的数据质量评估技术研究

被引量 : 0次 | 上传用户:wtwl66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘作为海量数据中知识提取的有效手段,已广泛应用于电信领域,如话费欺诈分析、客户细分、客户流失预测、交叉销售等。然而,现实中的电信数据往往质量较差,不能满足数据挖掘的要求,导致数据挖掘在电信中应用的成功案例较少,数据质量低下已成为制约数据挖掘在电信行业应用的主要瓶颈之一,因此,在进行数据挖掘之前,有必要进行数据质量评估,以衡量挖掘的可行性,避免时间和精力的浪费。对于数据质量评估,虽然前人已有较多的研究成果,但大部分集中在框架理论,较少涉及特定的行业背景和具体应用,而面向特定挖掘主题的数据质量评估,尚未有专门的文献讨论。本文针对电信数据挖掘的常用主题——欠费挖掘,在深入研究缺失和离群对数据挖掘影响的基础上,对面向数据挖掘的数据质量评估技术展开研究,具体的研究工作如下:1.对于缺失评估,提出类分布CD(Class Distribution)的概念,以衡量各个输入属性和目标属性之间的关联度,基于此,提出类分布差异的属性加权算法CAWA,算法能够区分不同输入属性对分类结果的重要性,并由此提出基于属性加权的缺失评估算法AMEA,以实现数据的缺失评估。实验结果表明,该评估算法能够合理量化缺失对挖掘结果的影响。2.对于离群评估,针对电信数据的特点,尤其是欠费数据非平衡的特性,分析了非平衡数据中的离群点对分类结果的影响,并结合超图离群检测(HOT)算法,提出离群度OD(Outlier Degree)的概念,基于此,提出非平衡离群评估算法IOEA,以实现数据的离群评估。实验结果表明,该离群评估算法能够合理量化离群对挖掘结果的影响。3.在缺失评估和离群评估的基础上,结合电信欠费数据挖掘本身的特点,提出一个较为完整的数据质量评估体系,该体系由缺失评估和离群评估两部分组成,并在实验的基础上,结合电信行业专家经验,给出评估得分向量的参考值。实验结果表明,该参考值能够对挖掘的可行性分析提供有意义的指导。
其他文献
时间继电器芯片具有集成度高、外围电路简单和在延时过程中延时显示直观等诸多优点,在各种电子产品中得到广泛的应用。尤其是在自动控制领域,时间继电器芯片已基本取代传统的
我国自"十一五"以来,人口和计划生育工作都进入了一个崭新的发展时期。面对新形势、新任务,从事计划生育宣传教育的工作人员只有在理论和实践中进行深入的探索,才能更好的完
随着城市污水处理事业的迅速发展,城市污泥的产量越来越大,城市污泥的处理处置已引起人们的关注。污泥成分复杂,如何经济、有效的加以利用已成为目前环境科学中深为关注的课
项目管理是现代化工程技术、管理理论相结合的产物,是一门新兴的管理科学,项目进度计划与控制贯穿了整个项目管理的全过程,不仅决定项目的成功与否,还直接影响到项目的经济效
<正> 最近,西安人员歌舞剧团上演了苏联阿塞拜疆加盟共和国的著名喜歌剧——《货郎与小姐》,受到了广大观众的热烈欢迎.这部著名的喜歌剧是苏联阿塞拜疆卓越的作曲家、教育家
神话反映了人与自然或人与社会之间的关系,它是原始先民认识世界、认识自己的证明,也是人类祖先为后人留下的宝贵精神文化遗产,它反映了人类童年时代的思维,与儿童的关系十分
目前,我国的教师专业化研究大多集中在教师群体的专业化,其研究以共性为着眼点,不能兼顾不同学科、不同层次的教师专业差异。本文力图突破仅限于教师群体的、宏观意义上的教
模糊性是自然语言的内在属性。扎德于1965年发表了《模糊集合》,自此,人们开始加深了对模糊性的认识,对于模糊性的研究开始向系统化和学科化的方向发展。人们曾经对模糊语言
<正> "梁山伯与祝英台"一剧,已在群众的心里扎下了深深的根子,每当我团演出后,观众总是心情沉重而去,都为这一对真挚情感的青年男女之死而难受.这次上海沪剧团演出了"女审"后
目的探讨2%甲硝唑溶液、常用消毒剂以及高温环境对人体毛囊蠕形螨的体外杀灭作用,为选择有效的灭螨方法提供可靠依据。方法采用透明胶带法获取螨虫,置于不同的条件下,观察其