论文部分内容阅读
本文讨论研究了自适应动态规划ADP (Adaptive dynamic programming)这一基于强化学习和动态规划的通用学习控制系统算法。自适应动态规划ADP是一个非常有前途的研究领域,它是自适应控制、认知科学、神经系统科学、心理学等多学科交叉融合的产物,可以实现系统的在线学习和最优控制。在过去的数十年间,ADP理论算法研究发展很快并走出实验室在军事、工业上取得成功应用,显示出其卓越的最优控制性能。但是目前的有关ADP的应用研究都是集中在多变量输入单变量输出(MISO)的梯度下降寻优的控制系统。热轧中厚板带钢生产线是一个多变量的复杂的控制系统,活套控制系统是热轧带钢生产线中一个重要的部分,是实现中厚板带钢热连轧的关键设备。活套控制系统也是集中了电气传动技术、计算机技术、液压伺服控制系统、自动控制技术等技术的综合产物,所以对活套控制技术进行研究,从而提高热轧中厚板带钢的产量和质量指标是很有意义的。活套控制系统主要分为对活套高度的控制和带钢张力的控制两个方面,其控制目的就是想让活套的高度和热轧带钢的张力两者能够维持在相应设定值上。因为它是一个双输入双输出的多变量强耦合系统。常规是将活套高度控制和活套张力控制分别当作两个独立的子系统,将耦合视为扰动进行控制效果不是很理想。而自适应动态规划(ADP)是一种更为通用且具有在线学习的控制算法,解决此类问题有着巨大的潜力。本文在对自适应动态规划(ADP)研究的基础上,主要工作如下:(1)论文在经典执行器-评价器结构的ADHDP算法基础上对ANN网络及其权值更新算法做了改进,将其从仅适用MISO系统对象推广到适用于MIMO系统,这是一种更为通用、更实用的在线学习控制模型(GMIMO);(2)对热轧中厚板带钢控制系统中的关键设备液压活套的控制模型进行研究并建立液压活套控制数学模型和仿真模型;(3)将改进型的MIMO ADHDP算法成功应用于活套的高度和张力多变量控制,并用MATLAB仿真软件进行仿真。ADP在线学习算法有效的克服动态规划的“维数灾难”问题,和实际物理模型的“模型灾难”问题。针对活套控制的多变量输入多变量输出系统,并且活套的高度控制和张力控制存在强耦合,建立控制系统模型困难这一现状,建立液压活套控制模型。我们把ADP在线学习控制模型应用到活套控制方面,经过MATLAB软件的仿真,证明效果良好,达到预期的目标,展现出该算法很强的在线学习能力。