【摘 要】
:
随着信息科学技术的不断发展,工业系统的规模与复杂程度在不断扩大,生产系统在实际运行过程中对系统的性能以及节能需求也日益增加,因此最优控制越来越成为控制领域的一个研究热点。在求解系统最优控制问题的过程中,传统动态规划方法往往受到“维数灾”问题的困扰,为了克服这一问题,学者们提出了自适应动态规划技术。自适应动态规划技术是一种融合了动态规划、强化学习、自适应控制、最优控制等理论与方法的新兴控制技术。该方
论文部分内容阅读
随着信息科学技术的不断发展,工业系统的规模与复杂程度在不断扩大,生产系统在实际运行过程中对系统的性能以及节能需求也日益增加,因此最优控制越来越成为控制领域的一个研究热点。在求解系统最优控制问题的过程中,传统动态规划方法往往受到“维数灾”问题的困扰,为了克服这一问题,学者们提出了自适应动态规划技术。自适应动态规划技术是一种融合了动态规划、强化学习、自适应控制、最优控制等理论与方法的新兴控制技术。该方法能够解决传统动态规划方法在求解最优控制问题时所面临的“维数灾”问题,目前已被视为解决复杂系统最优控制问题的最为有效方法之一。自适应动态规划方法最早建立于有限Markov决策过程中,到目前为止这一技术在连续状态空间控制系统领域的应用已经得到了长足的发展,但是尚有部分开放性问题待学者们探索。本文主要就参数未知线性系统的控制问题针对现有自适应动态规划方法的部分限制进行研究,扩展了自适应动态规划方法现有的部分理论成果,主要工作和贡献如下:1.针对线性系统的H∞优化控制问题展开研究,建立新式基于值迭代的自适应动态规划设计框架。本文首先利用系统离线输入状态数据通过倒向求解微分Riccati方程来逼近系统期望H∞优化控制器的形式,并在此基础上分析相关的微分Riccati方程的局部稳定性。此外,本文使用这一思想对含有状态时滞的时滞系统的保性能控制器的设计方法进行研究。在定常系统的基础上,本文还针对线性周期系统的H∞优化控制问题展开研究,基于相同的思想建立基于值迭代方法的线性周期系统的H∞优化控制器的设计框架,拓宽自适应动态规划技术的应用范围。2.针对现有的广义策略迭代方法展开分析,建立针对线性离散系统的修正广义策略迭代方法。与传统的策略迭代方法相比,广义策略迭代方法不需要通过无穷次迭代或者求逆运算来得到系统值函数的准确形式,在一定程度上降低了计算量。但是现有的广义策略迭代方法大多基于系统初始稳定控制器进行实现,或者对每次迭代过程中的闭环系统自身的稳定性存在特殊的要求。本文通过对该方法的迭代方程进行细致的分析,以迭代过程中特定参数的单调变化情况入手,构造新式的广义策略迭代方法的收敛条件。在此基础上,设计了从任意初始状态进入该邻域的方法,从而保证在任意半正定初值条件下,算法总能逼近到系统所期望的控制增益形式。3.针对现有的λ-策略迭代方法展开分析,建立针对线性离散系统的修正λ-策略迭代方法。与广义策略迭代方法相同,现有的针对连续状态空间系统的λ-策略迭代方法大多基于系统的初始容许控制器进行实现,本文通过对传统λ-策略迭代方法的迭代方程进行分析,对迭代过程中特定参数的单调变化特性给出证明,并进一步结合修正环节,降低了现有算法对于初始镇定控制器的依赖。在此基础上,对加速的修正λ-策略迭代方法进行设计,仿真分析表明该方法不仅能够以传统值迭代方法的形式进行启动,还具有近似传统策略迭代方法的收敛速度。4.对线性连续时间系统优化控制的偏量策略迭代方法展开研究。自适应动态规划技术的基础算法可分为值迭代方法与策略迭代方法两类。目前来说针对线性连续时间系统的策略迭代方法已有相当丰硕的成果被提出,但是相关值迭代方法尚未研究成熟。受离散系统中λ-策略迭代方法的启发,本文结合策略迭代与值迭代方法,建立针对线性连续时间系统的偏量策略迭代方法,对算法收敛速度以及初始控制条件进行折中,降低现有策略迭代方法及其衍生方法的应用限制。数值例子表明,与现有的值迭代方法相比,所研究的方法收敛所需的迭代次数大大减少。
其他文献
新一代信息技术与互联网的飞速发展,使各应用领域的服务业务不断跨网跨域跨界交叉融合,进而形成了复杂的大服务生态系统。随着人工智能、认知计算与深度学习技术的迅速发展与应用,服务向智能服务发展。智能服务的核心是自动辨识顾客显性和隐性需求,并主动、高效、安全地提供满足顾客需求的服务。在大服务生态与智能服务场景下,为了实现随时随地获取用户需求并交付服务,软服务机器人的研究逐步引起研究者的关注。准确、完整的获
强化学习是机器学习的重要分支,是实现通用人工智能的重要手段。与其他机器学习方法的不同之处在于,强化学习是一个主动学习的过程。智能体通过与环境交互来获得经验,通过最大化奖励来学习值函数和策略。强化学习的核心问题是如何提升智能体对环境的探索效率。在有限状态空间中,探索方法使用状态计数和值函数置信区间的估计来获得高概率近似正确的理论保证,然而这些方法并不能直接应用于高维状态空间的深度强化学习任务中。在高
无线传感器节点能够从物理世界中采集温度、湿度、图片等数据,并将这些数据以一跳或多跳的方式传到服务器(也叫汇聚节点或sink节点)上。无线传感器网络在实时监测、异常检测、目标追踪等方面具有广泛的发展和应用前景。传统的无线传感器节点依靠电池供电,而电池电量十分有限,需要频繁地更换电池。但是,传感器网络常常被部署在森林、大型设备内部、污水过滤系统等恶劣的环境中,这使得频繁的电池更换是非常困难甚至是不现实
文本语义匹配是自然语言处理中一个基础且重要的研究方向,其目的是判断两段文本是否符合给定的语义关系,其包含了大量的下游任务,如自然语言推理、复述识别、答案句选择等等。任务不同,文本语义匹配所需判断的语义关系也不一致。然而无论哪一种语义关系,判断文本间语义是否匹配都需要研究:(1)如何表示文本语义?(2)如何判断文本间语义关系?针对这两个核心研究点,研究者们将文本语义匹配研究分为基于表示和基于交互的文
高速铁路是国家经济发展的支柱产业与交通命脉,也是高端装备制造业的标志性产品,它的发展与可靠运营惠及国计民生。在铁路逐渐向高速化、重载化发展的背景下,钢轨作为高铁系统内最重要的支撑部件之一,保障其长期安全也逐渐成为铁路发展规划的重要议题。在新兴无损检测技术中,声发射技术凭借其动态特征、高灵敏度、可及早发现内部裂纹等优势在工业探伤中得到了广泛应用。但在对动辄万余里的钢轨健康状态监测中,声发射传统的定点
传统的机器学习要求训练数据和测试数据服从独立同分布的假设,且需要大量有标注的数据才能训练出较理想的模型。在实际应用中,环境的变化或采集条件的限制使得采集的数据不能满足独立同分布的假设,导致模型的泛化能力显著下降。在这种数据存在分布差异的场景下,需要重新收集、标注数据并构建新的模型。然而,采集并标注业务场景数据是非常昂贵的,在某些场景中甚至是不可能的。域适应的出现正是为了解决上述数据分布存在差异的学
随着航天技术的高速发展,在轨服务任务也日趋多样化和复杂化。通过服务航天器对目标进行有效姿态接管操控是后续在轨加注、在轨维修、碎片清除等任务的基础。对于传统的合作目标的接管控制技术已十分成熟,并已实现了在轨应用。但针对结构复杂、质量特性未知、姿态机动能力不明的空间非合作目标的接管操控问题,往往面临着目标信息不完全以及精确辨识困难等诸多挑战。本论文致力于解决在轨服务航天器捕获目标后的组合体航天器姿态接
随机动态系统的状态滤波与平滑问题广泛存在于各种工程应用与科学研究领域。粒子滤波与平滑作为一类处理非线性非高斯随机动态系统的状态滤波与平滑问题的强有力算法正在被广泛使用。现有的粒子滤波与平滑算法通常假设系统不存在非独立噪声和多步随机量测延迟。然而,在一些实际工程应用中,如目标跟踪、定位、导航、网络控制系统等,非独立噪声或多步随机量测延迟是不可避免的。在此情形下,由于忽略了非独立噪声和多步随机量测延迟
作为高端精密制造业中最核心、应用最广泛的部件之一,双边直驱龙门系统一直是国内外学术界的研究热点,其运动控制的性能直接影响各种精密元器件的生产加工质量和效率。然而,随着现代工业在产品加工精度、生产速度以及设备运行安全等方面的需求不断提高,双边直驱龙门系统的精密运动控制性能需求也愈加苛刻,特别是在高速、大跨距、大推力工作环境下的系统控制精度。系统中非线性动力学以及不确定性是影响双边直驱龙门系统控制性能
在现代工业系统中,系统控制器的设计通常都是基于被控过程的数学模型实现的,而该数学模型需要准确地描述被控过程的稳态和动态特性。此外,被控过程的数学模型还可以用来辅助系统的其他功能性设计,例如,过程监控与故障诊断、软测量预测等。对于物理定律清晰的系统,可以利用微积分等数学运算通过理论建模的方式推导得到系统的数学模型。然而,据此建立的数学模型通常比较复杂,需要基于特定假设适当简化模型,以便于实际应用,因