基于一维卷积循环神经网络的深度强化学习算法

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户:Phoenix164
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现.
其他文献
激光雷达具有探测精度高、穿透能力强、能够三维成像等诸多优点,故自动驾驶车辆常常搭载激光雷达来对车身周围环境进行感知;车辆实现自动驾驶的关键技术包括车载激光雷达信号的发射、接收和对点云数据的处理,通过对接收到的点云数据进行处理可以使车辆准确的感知到当前路面状况并做出相应操作;文章重点介绍了车载激光雷达点云数据处理中的关键技术,对每个关键技术中常用算法的基本原理、优缺点和改进等进行了阐述,以期为车载激光雷达点云数据处理提供参考.
随着卫星遥感行业进入大数据时代,传统的数据处理平台日渐难以满足卫星遥感数据快速积累的发展需求,同时也对系统在动态调度资源、易维护、弹性扩展、复杂度可控和灵活部署等方面提出了更高的要求.针对上述问题,文章引入容器技术及Kubernetes容器集群管理系统,设计实现了基于Kubernetes的开源容器云平台,将单个业务系统拆分成多个独立运行在相互隔离容器中的服务,实现了应用服务容器的调度和管理、快速部署和迁移,并以GF7高分卫星数据为例进行验证,验证了容器集群能够有效处理卫星遥感数据,提高了卫星遥感数据处理平