基于通联日志的地址属性标定系统研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:dewuwangwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络流量分析技术包括对网络主机地址、网络互连、网络应用以及网络用户行为等多个关联实体的研究分析,对网络资源分配、网络服务质量提高都具有重要意义,其中以网络主机地址为研究对象的网络流标定,是精细化网络管理的新趋势。本文通过对网络流量产生的通联日志进行分析,研究以通联日志为基础的网络地址属性标定技术,主要研究内容包括:1.提出并实现了基于双哈希表数据结构的网络通联信息管理方法。高速网络流完整接收和实时计算是核心网络流分析的一大挑战,本文设计通联日志这一流描述格式,保留通联信息过滤数据包负载数据,以大大降低流数据处理成本。通联日志接收预处理节点使用双哈希表通联信息记录管理结构和多核多线程并行计算,最终达到单机每秒600万条通联日志的实时处理能力,预处理节点计算前后数据量压缩比达到95.7%。2.在对网络地址属性进行标定过程中,以地址活跃明暗度和截至当前的地址通联情况为依据,定时在增量叠加数据集上施加属性标定模型计算,以提高网络地址相关数据的实际贴合度。提出并实现了基于MapReduce的地址属性标定计算模型,借助Hadoop分布式并行计算能力,达到每半小时28GB数据的合并分析,最终完成对2天总计28亿活跃地址的网络角色类型属性标定存储。3.研究常见地址业务属性模型,调整UNIBS数据集使符合本文系统数据形式,在该数据集上测试对比常用的6类机器学习基分类器标定准确度和差异度,最终提出基于加权置信度的组合地址业务分类算法。结果表明本文算法对于UNIBS中32类应用的整体分类准确度较ZeroR分类器有40.57%提高,相比该样本空间的最佳基分类器J48的分类准确率提高1.8%。相比于基分类器该组合算法置信度也有提升,其业务置信度的最高提升31.85%,平均提升2.59%。
其他文献
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要
随着互联网的不断发展,各种各样的,包含不同主题的信息可以通过网络获取,互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种:网页浏览和关键字查询。但两种
随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网
OTA技术是近年来兴起的针对移动终端用户一种新型的数据动态更新方式,国内外的运营商对其都有比较广泛的应用。本文的一个主要工作就是基于现有的OTA服务器系统,抽取其共性进行
学位
随着计算机应用技术的不断发展,图像信号扮演着越来越重要的角色。许多信息均可以通过图像方式进行存储和传送,由于存储空间和信道容量的限制,图像信息必须经过压缩或量化处理后
科学数据库经过二十多年的发展,积累了大量的科学数据资源。如何对这些数据资源进行有效的管理以方便数据共享、交换和整合,成为了一个亟待解决的问题。   科学数据库标准规
随着全球信息技术的发展,数据挖掘理论得到广泛研究,分类是其中应用最广的一种技术。随着可以利用的数据同益增长,大数据量的学习处理给研究者提出了新的难题。本文对增量式分类