论文部分内容阅读
利用机械臂智能、高效地执行操作任务已经成为机器人研究领域的热点,但因为应用场景复杂多变,机器人需要采用更加智能化的控制方式才能在各种非结构环境下自主地完成操作任务。针对自主操作的诸多难点,本文基于智能学习方式提供多种解决方案。基于深度学习从视觉中提取环境表征信息,准确感知目标位姿状态后利用视觉伺服控制完成操作。此外,基于深度强化学习让机器人与环境自动交互学习最优控制策略,并针对稀疏奖励等问题提出了优化,本文从下述几个方向进行研究:首先,研究了Kinova七自由度冗余机械臂正逆运动学求解及优化问题;针对目标识别和位姿估计任务,利用Label Fusion制作了用于监督深度神经网络训练的数据集;编写机械臂和操作物模型,通过Mujoco搭建了用于训练机器人智能体自主学习操作技能的物理仿真环境。其次,针对复杂未知环境下的自主操作任务,提出一种基于深度学习网络的特征融合算法,先利用RGB-D相机输出的彩色图像识别出兴趣目标并从背景中分割出来,然后根据识别分割结果实现RGB和Depth特征的逐像素融合,全局特征为之后的位姿预测模块提供更丰富且准确的细节信息,输出位姿进一步通过点云配准实现参数微调,最后得到准确的目标位姿,该算法能够有效克服遮挡、阴影、弱光等环境因素造成的影响,具有很强的鲁棒性。但是,该方案因为网络复杂且结果需要后处理,不能够满足一些对速度要求较高的操作任务,于是本文另外设计了基于CNN估计目标抓取位姿的端到端网络模型,只利用深度相机观察目标,就能够实时地生成最优抓取位姿。再次,利用深度强化学习框架让机器人学习抓取、收纳等序贯决策技能,设计多模块深度神经网络对操作任务抽取特征,提出堆叠LSTM网络进行时间序列学习,利用分布式PPO算法实现智能体和环境交互更新网络参数,进而得到从相机端图像输入到机械臂关节状态的端到端的视觉驱动策略。此外,将少量的演示样本数据添加到值函数学习单元,用于初始化智能体参数并引导策略搜索,提升训练效率。为保证学习过程的安全性,利用随机域方法在Gym和Mujoco环境中训练该模型,使策略参数网络暴露于大量随机模拟中,充分表达现实环境的物理特征,从而让仿真训练的驱动策略能够直接移植到实际的机器人上。最后,基于ROS搭建机械臂视觉伺服控制平台,用于验证目标感知效果以及收集操作演示视频。此外,针对上述研究分别设计了实物或仿真实验来验证可行性,对结果和算法性能进行了评估和优化。