电信大数据的研究与应用

来源 :信息化建设 | 被引量 : 0次 | 上传用户:skykingzx6103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着互联网+的提出与发展,大数据分析作为传统行业分析、利用数据的技术手段,迎来了新的发展。电信运营商具有得天独厚的数据优势,但数据质量、分析能力及隐私安全等问题对运营商发展大数据提出了更高的要求。本文总结中国电信“灯塔大数据行业应用平台”过程中的一些经验,探讨了中国电信运营商在大数据领域的技术创新与研究成果,面向互联网+的大数据挑战进行分析。
  互联网+在大数据应用中的机遇与挑战在大数据浪潮中,电信运营商是率先开展大数据研究和应用的行业之一。通过利用运营商海量的网络大数据资源,各个运营商都构建大数据平台并开展大数据创新。对灯塔大数据定位于整合多源数据、打造能力平台、创新行业应用, 通过对800亿电信数据的脱敏、互联网数据(来自地产、金融和社交)的抓取和对第三方(如法院、银行、人力)数据的接入,形成庞大的相对基层的数据量;并对多源数据进行整合,控制数据质量,增强数据融合,同时对数据能力封装,由此开展数据行业应用创新。
  在大数据应用到互联网+的过程中,目前发现还有大量的问题需要解决(见图),主要包括如下三个方面:
  数据质量不高是常态,如何建立更加有效的分析方法?
  数据的价值密度是关键,如何寻找价值高地?
  用户的隐私保护日益重要,如何找到平衡点?
  运营商大数据关键技术研究
  为了有效的服务于互联网+,大数据需要在如下几个方面进行技术突破:
  (1) 数据拼接技术
  (2) 高阶深度标签技术
  (3) 行业知识建模技术
  (4) 基于场景的智能推荐技术
  (5) 海量模糊数据降维和关联分析技术
  (6) 大规模交互式数据可视化技术
  (7) 数据安全和隐私保护
  文本对其中几个关键技术进行介绍。
  数据拼接技术
  大数据的一个特征是异构多维,只有将来自不同来源的异构数据进行有效的整合,才能真正发挥大数据的价值。犹如瞎子摸象,每个单一来源都只涉及一个单一的侧面,只有把不同的侧面重新组合并且关联起来,才能完整的拼出一只“大象”。但是这个工作远比想象的要难,原因有几个方面:数据格式不同;数据标识(ID)不同;数据覆盖不同;数据计量标准不同(特别是经过一定处理后数据);大量的数据噪声(重复数据,错误数据)。这些因素导致将不同数据拼接成一个完整的立体数据具有非常大的挑战。
  然而,在这方面,运营商有较大的资源优势。结合运营商数据广度覆盖的特点,有可能作为所有数据的基础数据而实现数据拼接功能。在技术上,我们开发了基于图的数据模型,进行数据拼接。
  高阶深度标签技术
  用户画像一直是大数据研究的重点方向。在DMP中,系统根据用户访问轨迹来打标签,但是DMP通常仅仅通过关键词提取来打标签。为了进一步满足行业大数据的应用需求,我们需要补充两类标签,一类是模糊标签;一类是抽象标签。模糊标签是因为数据缺失而需要通过算法来补全的标签,例如用户的性别属性,如果基础数据里面没有这个属性,我们就需要通过机器学习算法去预测这个值,而且这个值往往是一个概率。抽象标签是针对一类高阶的属性,例如用户购买力,用户购物模式,用户口味偏好等,去建立标签模型。在灯塔平台中,我们建立了一套相对比较完整的深度标签体系。
  图3是分别用TAN和NBC算法进行标签计算的效果:
  行业知识建模技术
  在互联网+结合行业大数据的过程中,行业知识的获取和利用是关键的一环。只有将行业知识通过建模数据化,才能将行业知识和其他数据进行混合和关联处理。行业知识建模可以分为两个层次:第一个层次是行业字典,通过大规模爬虫,可以将行业信息转化为行业字典。目前,灯塔平台已经积累了超过三亿条行业字典,包括一亿条电商字典,五千万条视频字典;第二个层次是知识图谱,字典的缺点是信息之间缺乏关联性,我们通过构建知识图谱,去建立语义级的行业知识。
  基于场景的智能推荐技术
  推荐系统是非常成熟的大数据精准营销技术,目前已经在广告、电商、视频、阅读等领域得到了广泛的应用。但是,通常的推荐系统往往存在推荐效率不高,重复推荐,过度推荐等问题。在大数据的场景下,我们结合地理位置分析和场景识别技术,对推荐系统进行了优化。
  大数据交互式可视化技术
  数据可视化不仅仅是大数据分析结果的直观展现,更重要的是一种分析数据关联性的方法和手段。通过交互式数据可视化的方法,可以从不同的角度去分析数据,并直接得到结果。交互式可视化在技术上最大的难点在于针对大规模数据进行可视化操作的时候性能优化。例如基于地理的可视化数据分析,需要在不同的放大尺度下对数据进行实时的归并和关联性计算。图5是通过地理位置和人群信息模型进行交互式可视化,实现人口迁徙分析的案例。
  中国电信大数据的探索与实践
  通过在互联网+的大数据关键技术突破,灯塔大数据团队构建了面向互联网+的行业大数据平台。
  在灯塔平台的基础之上,打造了一套完整的5+1+1大数据产品体系,即5个直客产品方向、1个流量入口、1个能力平台。中国电信面向行业垂直领域直接客户,结合灯塔平台的能力,开发5类细分产品并逐步商用,并且根据融合数据、整合深度标签、ID图谱、GIS、爬虫、行业字典等平台能力,面向行业和政府提供技术解决方案。
  互联网+的提出与发展为作为基础设施的大数据带来了新的发展契机,是传统行业与互联网融合的一种有效的手段;运营商发展大数据应用已经成为一种趋势,然而数据处理的障碍使得寻求技术创新与转型成为必然;中国电信“灯塔”大数据行业应用平台力图打造大数据行业应用生态圈,加速产业升级和商业模式创新,提供零售研究、消费者研究、店铺选址、精准营销、泛义征信,背景调查等服务,通过技术创新和应用创新共同驱动,分析利用互联网中的大数据,使世界更加扁平化,同时也为自身转型走出了一条创新之路。
其他文献
人工智能是一个非常宽泛的概念,从Siri的语音识别到无人驾驶车船,都是人工智能的实现载体,涉及到的技术和领域跨越多学科,包括深度学习、智能识别、专家系统、神经网络、自然语言理解、知识发现、遗传算法、符号推理、智能机器人等方面统统在人工智能的研究范围以内。  人工智能发展历程  1950年,图灵预言了创造出具有真正智能的机器的可能性。1956年夏,以麦卡锡、闵斯基等为代表的科学家首次提出了“人工智能
目的:观察胎儿肾盂积水的程度、转归及预后,为临床干预提供帮助,防止不必要的终止妊娠。方法:在孕中晚期利用超声对13例16只集合系统分离的胎肾(分离值≥0.5cm)进行随访观察和分
在庞大的数据王国里,如何把数据用好是关键。让数据发挥最大价值的核心精准建模分析。  有人觉得:“京东好像是个电商,电商有什么技术?不需要有技术。”但事实并非如此。从1999年4平方米的柜台到京东今天的规模,京东逐渐建立了自己的技术体系,随着规模的扩大,京东用了很多开源技术,逐渐成为开源技术的推动者和贡献者。京东集团CTO 张晨在GIF2016极客公园创新大会之年度商业变量论坛上演讲时说:“在京东里
血精证是指所排出的精液中混有血液而言,在祖国医学论治中可谓百家争鸣,各有千秋,笔者经多年的临床探索和总结,用四法可以概括血精症的论治,且言简意赅,便于掌握,有益于临床中更好的
中医学与中国传统文化密不可分,中医教育离不开传统文化教育,本文分析了目前高等中医院校少数民族学生在学习中医过程中,由于传统文化教育薄弱而出现的问题,从而得出对为母语非汉
被誉为“让科幻场景触手可及”的互联网之光博览会在第二届世界互联网大会上精彩亮相,异彩纷呈,无人车、3D打印、智慧医疗、一秒下载一部电影等各种全球或全国首发的高科技产品和技术不断冲击和刷新着人们的认知。  然而,这一切还只是刚刚开始。正如马云所说:“过去30年,互联网在技术上实现突破;未来30年,才是互联网真正改变人类生活和思维的时代。”
【摘要】目的:探讨全程护理在宫腔镜联合腹腔镜治疗输卵管性不孕症患者中的应用效果。方法:选取84例输卵管性不孕症的患者为研究对象,随机分为观察组和对照组各42例。对照组采取一般性护理模式,观察组在对照组基础上采取全程护理模式;比较两组患者的满意度、治疗时间和受孕率。结果:观察组患者在治疗后对于护理的满意度要高于对照组,治疗时间较对照组缩短,受孕率高于对照组,两组比较差异具有统计学意义(P<0.05)