论文部分内容阅读
随着移动数据流量快速增长和业务类型日益多样化,雾无线网络受到业界广泛关注,借助雾接入点的计算和缓存能力,可有效降低用户时延和能耗并减轻前传和回传链路压力。为充分发挥雾无线网络性能潜力,资源调配的优化至关重要,然而,传统资源调配方法通常复杂度较高,难以适配复杂时变的雾无线网络环境。相比其它人工智能算法,深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,能够直接从高维原始数据学习控制策略,快速应对无线网络环境的变化。由此,基于深度强化学习理论,本文针对雾无线网络多用户、多雾节点场景中的无线计算资源和缓存资源调配问题分别提出了高性能低复杂的智能资源调配方法。本文主要工作及贡献如下:1.在多用户、多雾节点的计算卸载上行场景下,提出了基于多智能体深度强化学习的雾节点选择方法,通过将在线优化复杂度移至离线训练阶段,在线决策时间大大降低,实现了对时变信道和用户动态任务请求的自适应。具体地,首先利用马尔可夫过程对无线信道状态和设备计算任务请求的动态性进行了建模,在此基础上构建了以最小化系统长期能耗为目标的优化问题,该问题可解耦为给定雾节点选择策略下的单雾节点任务转发决策问题以及给定转发策略下的雾节点选择优化问题。对于前者,本文在考虑雾节点计算能力受限下提出了低复杂度的贪婪算法进行求解,而后者则利用多智能体深度强化学习方法求解,在达到性能和复杂度折中的同时有效克服了单智能体深度强化学习面临的维数爆炸问题。此外,本文对所提方法进行了复杂度分析,并通过与遗传算法等方案的对比验证了方法有效性。2.在多用户、多雾节点的内容分发下行场景下,为充分利用雾节点有限的缓存空间同时克服缓存决策与优化目标间无显式关系式的挑战,提出了基于分布式深度强化学习的多雾节点协作缓存方法。具体地,首先给出了邻雾节点协作缓存模型,其中每个雾节点可从其它满足距离门限的节点处获取本地未缓存内容。在此基础上,构建了以最小化系统长期内容传输时延为目标的多雾节点协作缓存优化问题。由于问题紧密依赖用户的节点接入策略,其优化目标显式表达式难以给出。为此,本文利用分布式深度强化学习方法求解缓存放置,其中每个雾节点对应的深度强化学习模型输入状态为该节点的内容缓存和上一次接入用户的内容请求,输出动作为满足该节点缓存空间限制的缓存内容放置决策。此外,为了实现雾节点间的隐性协作,奖励值设为所有用户的内容传输时延之和。最后,本文通过与多种经典缓存方案进行对比,展示了所提方法的优势。综上,本文针对雾无线网络中的智能资源调配方法进行了研究,是对雾无线网络资源优化理论与方法的有益补充,同时也为其它无线网络中的资源调配研究提供了新思路。