值函数相关论文
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......
针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装......
深度强化学习作为机器学习的一个分支,其通过结合深度学习的感知能力与强化学习的决策能力实现了对从感知到行为端到端的学习。目......
过去的几十年里,最优分红问题一直是金融保险领域关注的热点问题。随着现代金融保险市场的快速发展,保险公司所涉及的策略由分红逐......
实际工程应用中,由于生产需要、工况变化或紧急的突发状况,系统包含着多种工作模式,既有随时间的状态连续演化,又有受离散时间驱动......
本文首先构造了带有广义方程约束的优化问题,对此问题的两种扰动形式进行了灵敏性分析,得到了扰动问题值函数的次微分关于满足Frit......
最优分红问题是金融保险中研究较多的问题之一,其中基于Cramer-Lundberg风险模型的研究也十分普遍.一般说来,要求得最优分红问题的......
强化学习的优化目标是寻找最优动作序列,解决复杂环境中的决策问题。结合了深度神经网络,深度Q学习(Deep Q-Network,DQN)是一种经典的......
直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将......
学位
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......
本文主要在没有Isaacs条件下,研究带有不对称信息和相关信息的两人零和微分博弈以下两类问题:即上值函数的上共轭的等价形式,以及......
随着目标的多样化和实际环境的复杂化,现代雷达的探测能力正在面临十分严峻的挑战,而微弱目标的检测与跟踪问题就是其中之一。检测......
本文运用随机控制理论研究连续时间复合二项模型带期望折现罚函数的最优分红问题。目的是得到使带期望折现罚函数的累积期望折现分......
微分对策是对策论在动态情况下的发展,故又称为动态对策。它在军事对抗、航天工程、经济与金融、资源配置领域等具有非常广泛而重要......
雍炯敏和周迅宇[9]十分完整和严密地介绍了随机最优控制的基本理论,主要是针对连续控制.1993年,汤善健和雍炯敏[7]讨论了一个比较一......
本文考虑具有Lipschitz非线性项的半线性热方程:的最优控制问题。我们将运用观测不等式,证明值函数(ψ)作为相应HamiltonJacobi方程......
随着保险市场的不断开放与发展,保险业的竞争越来越激烈,保险企业需要不断开发更具竞争性的产品,以及通过购买再保险等方法来增加......
我知道一些周期函数在定义域上存在最小正周期,如sinx,cosx,tanx,cotx等.但有些周期函数如常值函数、狄利克莱函数等均没有最小正......
进一步完善高校贫困生助学体制,切实解决高校贫困生问题,是我国高等教育面临的一个十分紧迫而重要的理论课题和现实课题.仅着眼于......
考虑具有Lipschitz非线性项,半线性热方程的最优控制问题.我们将运用观测不等式,证明值函数ψ作为相应Hamilton-Jacobi方程的唯一......
运用随机最优控制理论,研究了风险敏感性随机最优控制问题.给出了值函数和风险规避系数的定义,并通过对值函数进行非线性变换,证明......
利用次微分相关性质,并引入新的约束规范条件,对含参DC复合优化问题的值函数的Fréchet次微分进行了估计.......
针对模型自由的随机线性离散时间系统,通过Q学习算法求解无限时间随机线性二次最优控制问题。首先根据贝尔曼最优性原理定义Q函数,......
不同于以前的最优消费、投资问题研究,本文研究个人投资者的最优金融决策问题--如何决定最优的证券组合、消费和购买人寿保险,使其......
研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,......
本文在严格单调的前提下,讨论了积分中值函数的严格单调性、连续性和可微性,得到了具有一般性的结论.......
该文考虑了投资和具有跳跃-扩散过程的受限的超额损失再保险模型,针对再保险保费是期望值原理,目标函数为指数效用的情况,得到了投......
研究了风险资产服从几何布朗运动的最优投资组合问题。借助于动态规划原理和李代数理论,得到了相应的HJB方程及值函数基于李对称的......
如果把绝对值符号中含有自变量x的函数称为绝对值函数,则绝大多数绝对值函数都是分段函数,这是因为当去掉绝对值时,需要对绝对值所含......
主要针对带有饱和执行器的时滞非线性离散时间系统更加一般的形式,通过启发式动态规划(HDP)算法求解无限时间最优控制策略问题,并在值......
标准热电偶的检定是利用比较法,在三个固定点分度后,借助S型热电偶参考函数表和一个差值函数,可以计算出300℃-1100V温区内标准热电偶......
推广Kleinman-Newton法,从全局稳定反馈控制的角度出发,建立反馈控制序列,并指出相应值函数序列是单调下降的.......
讨论了一类非线性最优奇异控制问题的离散解.构造等价微分方程分离控制,利用最大原理建立最优轨道上的微分等式,导出差分格式,进而......
强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对......
提出了一种构造C1连续的保凸分段有理二次插值函数的方法,所构造的插值函数分母是线性多项式,分子是二次多项式.由于函数表达式中......
绝对值函数的定义:f(x)=|x|={x x≥0,-x x<0.我们考虑其导函数:当x>0时,f′(x)=1=x/x=x|x|;当x<0时,f′(x)=-1=x/-x=x/|x|.综合可......
The order of magnitude of multiple Fourier coefficients of complex valued functions of generalized bounded variations li......
摘要 提出了基于随机控制优化奇异衍生品交易策略的方法,并应用于Merton经典模型和Almgren-Chriss-Chriss(非)线性价格影响模型:首先,根......
本文在严格单调的前提下,讨论了积分中值函数ξ(x)的严格递增性、连续性和可微性,减弱了文[1]所使用的条件.......
在实际金融市场中股份公司在红利分配和再融资过程中都需要支付固定交易费和比例交易费, 而如何确定交易费对公司财务决策的影响还......
三角函数的反函数,就比如指对数函数关系一样.不过反三角函数是个多值函数,在主支上才是单值函数,是基本函数之一.反三角函数有其......
针对基于速度搜索和离散调频傅里叶变换( DCFT)的多帧相参积累检测前跟踪( TBD)算法运算效率低的问题,提出了一种基于动态规划( DP)和DCFT......