论文部分内容阅读
AlphaGo的成功证明了深度强化学习在智能决策任务上具有的巨大潜力。利用机器学习理论做智能决策的方法在各个工程领域中开始受到重视。网络中存在大量的动态数据可供机器学习,例如链路时延、队列长度、丢包率、流量变化情况等,这些数据侧面反应着网络的状况,可以用来指导网络管理者作出调控决策。然而将现有机器学习理论应用于网络智能决策中存在以下困难,一是难以实时、有效地收集数据,二是难以标定数据质量,如果采取无监督学习,则难以直接面向智能决策,所以半监督性质的强化学习成为值得探究的路径之一。目前已有的关于网络决策的相关研究,一般是基于启发式算法得到较优的解法,往往需要复杂的设计、测试、实验,如果问题背景迁移,约束条件发生变化,又需要重复进行设计。本文借鉴强化学习理论中的经典框架来进行这一类决策,并根据网络控制问题的特点对已有框架进行改进,设计一个以深度神经网络为决策体的模型,通过对网络的拥塞程度、耗电量等指标的建模作为从环境中观察到的状态,以对网络中路由节点的开关作为决策的动作集,通过不断下发决策来收集状态的变化数据作为反馈信息,使机器自行学习什么样的决策适用于特定的网络状况,主要研究内容分为两块,一是将强化学习理论应用于实际场景,尤其是网络控制这种包含大量动态数据、需要大量决策、存在多种变量因素的场景,与目前已成熟应用的领域(如围棋、游戏)相比存在哪些区别,有哪些需要攻克的技术难点,二是如何因地制宜地改进强化学习框架,使其能够处理实际的网络控制问题。本文搭建了基于软件定义网络技术的仿真平台,真实模拟了一张流量不断变化的通信网络,并在此基础上实现和验证本设计方案的有效性,最终形成一个能在毫秒级时间内产生、下发决策,决策效果接近于启发式算法的网络节能控制系统。