【摘 要】
:
磁悬浮技术是由多种高新技术结合的机电一体化技术,研究初期应用于军事、宇航等高端技术领域,随着控制技术的不断发展与完善,磁悬浮技术已经逐步向交通、电器、材料等一般工业方面发展,由于磁悬浮系统具有无噪声、无污染、能耗低等优点,得到众多学者的广泛关注。磁悬浮系统具有典型的非线性特性,采用传统控制方法设计时,需要依赖系统的精确模型。Q网络是一种无模型的强化学习方法,在模型未知的情况下,以奖励函数为反馈,通
论文部分内容阅读
磁悬浮技术是由多种高新技术结合的机电一体化技术,研究初期应用于军事、宇航等高端技术领域,随着控制技术的不断发展与完善,磁悬浮技术已经逐步向交通、电器、材料等一般工业方面发展,由于磁悬浮系统具有无噪声、无污染、能耗低等优点,得到众多学者的广泛关注。磁悬浮系统具有典型的非线性特性,采用传统控制方法设计时,需要依赖系统的精确模型。Q网络是一种无模型的强化学习方法,在模型未知的情况下,以奖励函数为反馈,通过迭代学习找到最优策略。本论文以磁悬浮球为研究对象,采用Q网络方法进行控制系统设计。首先,论文分析磁悬浮球系统的物理特性,建立系统动力学方程和非线性模型,通过平衡点附近线性化得到线性模型,指出磁悬浮球系统具有不稳定性;论文采用传统方法设计线性控制律,通过对非线性系统应用表明,经典校正方法能够保证磁悬浮球系统稳定,加入积分环节可以消除稳态误差,系统稳态性能得以改善,但是存在磁悬浮系统参数获取困难、控制器适应性不强等问题。为此,论文提出一种Q网络强化学习控制方法,能够实现磁悬浮球系统的连续状态空间控制。文中采用Q网络方法设计强化学习控制器,使用神经网络代替Q值表来完成状态-动作对Q值的映射。设计中引入深度Q学习网络(DQN)中的经验回放方法,解决了神经网络训练不稳定问题,通过设置目标值函数和估计值函数双网络,提高了神经网络收敛性。为解决因训练数据有偏而导致的神经网络收敛于局部最小的问题,在Q网络方法中引入稳态评价指标,弥补了传统强化学习方法无法对数据进行评价的不足,通过对训练数据的筛选更新,有效降低了神经网络收敛于局部最小值的可能性,减小稳态误差,提高控制精度。最后,论文应用训练结果对磁悬浮系统进行了数值仿真,实验结果表明,Q网络控制方法对非线性磁悬浮系统具有良好的控制效果,且能够有效地抑制扰动。Q网络强化学习控制器克服了传统控制器设计方法对模型信息的依赖性,实现了磁悬浮系统的无模型控制。
其他文献
为探索不同密度藻屑堆积对沉积物-水界面污染物的释放效应,设置了对照组(无藻屑添加)、2个藻屑添加组(分别为1倍组(加入0.06 g干藻,约6 g·m-2,以干重计)、20倍组(加入1.2 g干
玛格丽特·杜拉斯是法国重要的女性作家和导演,也是法国女权主义运动先锋式人物。她的电影作品《娜塔莉·格朗热》以20世纪70年代初的法国女权主义运动为背景,利用镜
φ20cm和E601型蒸发皿在新疆均有使用,但两种数据序列自观测开始至今均不完整,尤其自2003年以后数据未进行整合和校正,使得对蒸发皿蒸发量数据的使用和深入分析受到限制。本研究
税收风险管理是国家税务总局遵从税收管理规律,顺应国际税收管理演进趋势,基于中国国情及当前税收环境,着眼强化税收安全、降低征纳成本、推进依法治税、促进纳税遵从提出的
电影音乐是电影中的一部分,它在影片的叙述中起到了一定的作用,音乐会为画面营造不同的氛围和效果,同时也可以更深入的刻画人物的内心,让观众不只是通过画面还能够通过声音感
为了满足工业CT对数据采集系统的采集实时性、传输准确性、结构小型化及功能模块化等要求,设计并完成了一种基于FPGA+ARM架构的嵌入式数据采集与传输系统。该系统利用FPGA实现
东莞市社会医疗保险制度从2000年改革至今,取得了很大的成功,在2008年为所有人群建立了统一的社会基本医疗保险制度。文章从公平性角度分析了东莞市社会医疗保险制度,重点论
目的了解东莞市大朗镇和塘厦镇60个社区卫生服务机构的服务状况及人员的学历结构、业务培训、工资收入等情况,探讨社区卫生服务发展中存在的问题和相应对策。方法采用立意抽
目前,世界各国正在进行互联网和制造业的大融合,智能制造已经成为了一个新的研究热点。传统的制造类企业正处于数字化转型的关键时期。本文研究的面向数字化车间的介入式3D可
唯有大开放,才有大发展。从南宋经世致用的永嘉学派,到晚清维新图强的新学思潮,再到享誉当代的温州模式,温州以义利并举、闯荡天下的开放胸襟,始终开风气之先声、领时代之潮流。习