值函数相关硕士博士期刊学术论文

值函数相关论文

深度强化学习算法与应用研究现状综述

深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......

期刊

人工智能深度强化学习值函数策略梯度导航协作复杂环境泛化性鲁棒性

基于作战过程的岛礁兵力配置强化学习算法

针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器，根据岛礁守备作战过程建立模型，提出一种动态动作空间方法。设置敌方武器装......

期刊

强化学习值函数岛礁守备动态动作空间

基于值函数的深度强化学习改进研究

深度强化学习作为机器学习的一个分支,其通过结合深度学习的感知能力与强化学习的决策能力实现了对从感知到行为端到端的学习。目......

学位

深度学习强化学习值函数序列决策

基于扩散风险模型的保险公司最优分红和风险控制策略研究

过去的几十年里,最优分红问题一直是金融保险领域关注的热点问题。随着现代金融保险市场的快速发展,保险公司所涉及的策略由分红逐......

学位

分红注资再保险破产终端值交易费用值函数最优策略扩散风险模型

复合二项模型中具有随机分红时刻的最优红利问题

本文主要在复合二项模型中研究具有随机分红时刻的最优分红问题.该研究是对周期性最优分红问题的进一步拓展,采取随机分红时刻的分......

学位

随机分红最优分红策略值函数压缩映射原理贝尔曼递归算法随机算子

基于时间差分学习的随机跳变系统鲁棒控制

实际工程应用中,由于生产需要、工况变化或紧急的突发状况,系统包含着多种工作模式,既有随时间的状态连续演化,又有受离散时间驱动......

学位

随机跳变系统时间差分学习鲁棒控制黎卡提方程值函数

带有广义方程约束的数学规划的灵敏性分析

本文首先构造了带有广义方程约束的优化问题,对此问题的两种扰动形式进行了灵敏性分析,得到了扰动问题值函数的次微分关于满足Frit......

学位

带有广义方程约束的数学规划值函数灵敏性分析次微分半定锥互补约束数学规划

Cramer-Lundberg模型下分红问题值函数与策略的迭代方法

最优分红问题是金融保险中研究较多的问题之一,其中基于Cramer-Lundberg风险模型的研究也十分普遍.一般说来,要求得最优分红问题的......

学位

最优分红问题值函数迭代策略 Cramer-Lundberg风险模型

深度强化学习中的动作值函数Q估计方法研究

强化学习的优化目标是寻找最优动作序列，解决复杂环境中的决策问题。结合了深度神经网络，深度Q学习(Deep Q-Network，DQN)是一种经典的......

学位

强化学习动作值函数正则化估计方法论文泛化能力学习问题神经网络实验偏差价值估计

分层强化学习的研究及其在多智能体环境中的应用

近年来，人们在强化学习领域的研究已经取得了令人瞩目的成就。然而在场景较为复杂时，传统的强化学习算法面临维度灾难以及长期信度分......

学位

分层强化学习多智能体环境强化学习算法分配问题学习框架维度灾难估计问题多智能体强化学习值函数有效性信度场景

基于值函数的强化学习在直复营销中的研究

直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将......

学位

强化学习值函数 Q-learning算法深度Q网络直复营销

基函数自适应的强化学习的神经网络实现的研究

强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......

学位

强化学习策略评价策略迭代值函数函数逼近器基函数

一类微分博弈值函数的存在性

本文主要在没有Isaacs条件下,研究带有不对称信息和相关信息的两人零和微分博弈以下两类问题:即上值函数的上共轭的等价形式,以及......

学位

微分博弈不对称信息相关信息 Isaacs条件随机策略值函数

基于动态规划的雷达弱目标检测前跟踪算法研究

随着目标的多样化和实际环境的复杂化,现代雷达的探测能力正在面临十分严峻的挑战,而微弱目标的检测与跟踪问题就是其中之一。检测......

学位

雷达弱目标检测前跟踪动态规划值函数多目标检测跟踪

几类扩散过程的值函数

风险理论是金融数学和精算学中的重要组成部分,主要关注保险公司的商业运营,通过建立相关的风险模型,从而对保险公司经营中的风险......

学位

值函数强马尔可夫性 Dynkin公式首出时首中时

连续时间复合二项模型的带期望折现罚函数的最优分红问题

本文运用随机控制理论研究连续时间复合二项模型带期望折现罚函数的最优分红问题。目的是得到使带期望折现罚函数的累积期望折现分......

学位

连续时间复合二项模型值函数 HJB方程最优分红策略整数点索赔

微分对策及其在金融学中的应用

微分对策是对策论在动态情况下的发展，故又称为动态对策。它在军事对抗、航天工程、经济与金融、资源配置领域等具有非常广泛而重要......

学位

微分对策金融学投资策略值函数博弈模型

用随机转换控制的方法解决中国证券市场的两个投资问题

雍炯敏和周迅宇[9]十分完整和严密地介绍了随机最优控制的基本理论，主要是针对连续控制.1993年，汤善健和雍炯敏[7]讨论了一个比较一......

学位

最优投资问题值函数动态规划 HJB方程随机转换控制套利数学金融证券市场

半线性热方程的反馈零能控性

本文考虑具有Lipschitz非线性项的半线性热方程：的最优控制问题。我们将运用观测不等式，证明值函数(ψ)作为相应HamiltonJacobi方程......

学位

最优控制零能控性反馈控制值函数半线性热方程

带破产回收的最优风险控制和分红策略

本篇文章主要考虑的是如何最大化全部折现分红和最终的固定资产P的和。其中最终固定资产P表示保险公司在破产时所拥有的固定的可折......

学位

比例再保险最终资产扩散模型值函数分红策略风险控制

离散模型下最优红利再保策略

随着保险市场的不断开放与发展,保险业的竞争越来越激烈,保险企业需要不断开发更具竞争性的产品,以及通过购买再保险等方法来增加......

学位

复合二项模型最优支出策略最优红利策略最优自留额最优再保费比例 HJB方程压缩映射

关于周期函数的最小正周期的存在性

我知道一些周期函数在定义域上存在最小正周期,如sinx,cosx,tanx,cotx等.但有些周期函数如常值函数、狄利克莱函数等均没有最小正......

期刊

周期函数最小正周期函数连续充分条件值函数定义域

论心理账户理论对高校助学制度设计的启示

进一步完善高校贫困生助学体制,切实解决高校贫困生问题,是我国高等教育面临的一个十分紧迫而重要的理论课题和现实课题.仅着眼于......

期刊

心理账户非替代性值函数助学体制奖学金

半线性热方程的反馈零能控性

考虑具有Lipschitz非线性项,半线性热方程的最优控制问题.我们将运用观测不等式,证明值函数ψ作为相应Hamilton-Jacobi方程的唯一......

期刊

最优控制零能控性反馈控制值函数 Hamilton-Jacobi方程

带有风险规避的证券投资最优策略

运用随机最优控制理论,建立了带有风险规避的证券投资最优策略问题的数学模型;然后,给出了值函数和风险规避系数的定义,并通过对值......

期刊

证券投资风险规避随机最优控制值函数 HJB偏微分方程

风险敏感性最优控制问题研究

运用随机最优控制理论,研究了风险敏感性随机最优控制问题.给出了值函数和风险规避系数的定义,并通过对值函数进行非线性变换,证明......

期刊

随机最优控制风险敏感性值函数动态规划效用函数

含参DC复合优化问题值函数的Fréchet次微分

利用次微分相关性质,并引入新的约束规范条件,对含参DC复合优化问题的值函数的Fréchet次微分进行了估计.......

期刊

Fréchet次微分值函数 DC复合优化问题 Fréchet subdifferential the value function DC composi

模型自由的离散时间系统的随机线性二次最优控制

针对模型自由的随机线性离散时间系统,通过Q学习算法求解无限时间随机线性二次最优控制问题。首先根据贝尔曼最优性原理定义Q函数,......

期刊

Q学习算法值函数随机线性二次最优控制随机代数方程 Q-learning algorithm Value function Stochastic lin

考虑人寿保险的最优金融决策

不同于以前的最优消费、投资问题研究,本文研究个人投资者的最优金融决策问题--如何决定最优的证券组合、消费和购买人寿保险,使其......

期刊

人寿保险最优金融决策个人投资者最优控制值函数 Stochastic Control HamiltonJacobiBellman(HJB) Equati

增强学习算法的性能测试与对比分析

研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,......

期刊

增强学习值函数近似策略迭代平滑性 reinforcement learning value function approximate policy i

关于积分中值函数性质的注记

本文在严格单调的前提下,讨论了积分中值函数的严格单调性、连续性和可微性,得到了具有一般性的结论.......

期刊

函数性质积分中值注记严格单调性值函数可微性连续性一般性 function of integral mean value strictly mono

投资组合和具有跳跃-扩散过程再保险的最优控制

该文考虑了投资和具有跳跃-扩散过程的受限的超额损失再保险模型,针对再保险保费是期望值原理,目标函数为指数效用的情况,得到了投......

期刊

跳跃-扩散过程最优控制值函数 Bellman方程鞅 jump-diffusion process optimal control value func

一类投资组合模型的对称解

研究了风险资产服从几何布朗运动的最优投资组合问题。借助于动态规划原理和李代数理论,得到了相应的HJB方程及值函数基于李对称的......

期刊

投资组合 HJB方程李对称几何布朗运动值函数 portfolio selection HJB equation Lie symmetry geome

对一道课本例题的延伸与拓展

如果把绝对值符号中含有自变量x的函数称为绝对值函数，则绝大多数绝对值函数都是分段函数，这是因为当去掉绝对值时，需要对绝对值所含......

期刊

课本例题绝对值符号对应法则值函数分段函数解题规律自变量定义域

带饱和执行器的非线性离散时滞系统的最优控制

主要针对带有饱和执行器的时滞非线性离散时间系统更加一般的形式，通过启发式动态规划（HDP）算法求解无限时间最优控制策略问题，并在值......

期刊

近似动态规划启发式动态规划值函数神经网络最优控制 approximate dynamic programming heuristic dynamic

一类含参数的双绝对值函数的最小值

【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089（2016）23-0119-01...

期刊

中学数学教学最小值值函数

利用Excel快速实现300-1100℃温区内标准热电偶电动势的计算

标准热电偶的检定是利用比较法，在三个固定点分度后，借助S型热电偶参考函数表和一个差值函数，可以计算出300℃-1100V温区内标准热电偶......

期刊

EXCEL表格热电偶电动势标准利用计算问题比较法值函数

非线性和非二次最优控制问题的扩展Kleinman-Newton法

推广Kleinman-Newton法,从全局稳定反馈控制的角度出发,建立反馈控制序列,并指出相应值函数序列是单调下降的.......

期刊

反馈控制 Kleinman—Newton法值函数 feedback control Kleinman-Newton method value functi

一类非线性最优奇异控制问题的离散解

讨论了一类非线性最优奇异控制问题的离散解.构造等价微分方程分离控制,利用最大原理建立最优轨道上的微分等式,导出差分格式,进而......

期刊

非线性最优奇异控制差分格式离散解最大原理偏微分方程值函数最优轨道 optimal singular controls differences d

点击绝对值二次函数

形如f（x）=｜ax2＋bx＋c｜（a≠-）的函数，可称为绝对值二次函数。由于此类函数实际上是由二次函数y=ax2＋bx＋c（a≠0）与绝对值函数Y=｜x｜复合而形成的一个复......

期刊

二次函数绝对值复合函数值函数

强化学习方法的对比分析

强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对......

期刊

强化学习动态规划蒙特卡罗方法时间差分方法值函数 reinforcement learning dynamic programming Monte C

保凸有理二次插值

提出了一种构造C1连续的保凸分段有理二次插值函数的方法,所构造的插值函数分母是线性多项式,分子是二次多项式.由于函数表达式中......

期刊

插值有理函数表达式二次多项式值函数灵活性构造线性分子 convexity preserving interpolation rational

绝对值函数的导数“公式”及其应用

绝对值函数的定义:f(x)=|x|={x x≥0,-x x<0.我们考虑其导函数:当x>0时,f′(x)=1=x/x=x|x|;当x<0时,f′(x)=-1=x/-x=x/|x|.综合可......

期刊

值函数导数应用导函数求导

Order of Magnitude of Multiple Fourier Coefficients

The order of magnitude of multiple Fourier coefficients of complex valued functions of generalized bounded variations li......

期刊

傅立叶系数幅度广义界值函数估计 Order of magnitude of multiple Fourier coefficients functio

随机最优控制的奇异衍生品交易策略

摘要提出了基于随机控制优化奇异衍生品交易策略的方法，并应用于Merton经典模型和Almgren-Chriss-Chriss（非）线性价格影响模型：首先，根......

期刊

随机控制值函数 HJB方程最优交易策略 MERTON模型 Almgren-Chriss(非)线性价格影响模型 stochastic control valu

积分中值ξ的性质

本文在严格单调的前提下,讨论了积分中值函数ξ(x)的严格递增性、连续性和可微性,减弱了文[1]所使用的条件.......

期刊

积分中值可微性严格单调递增性连续性值函数性质条件前提 function of integral mean value strictly mo

考虑交易费的融资与分红最优控制模型

在实际金融市场中股份公司在红利分配和再融资过程中都需要支付固定交易费和比例交易费, 而如何确定交易费对公司财务决策的影响还......

期刊

交易费随机脉冲控制 HJB方程拟变分不等式值函数 transaction cost stochastic impulse control HJB eq

反三角函数几个容易犯错的问题

三角函数的反函数,就比如指对数函数关系一样.不过反三角函数是个多值函数,在主支上才是单值函数,是基本函数之一.反三角函数有其......

期刊

反三角函数函数关系值函数反函数

基于动态规划和离散调频傅里叶变换的相参检测前跟踪算法

针对基于速度搜索和离散调频傅里叶变换（ DCFT）的多帧相参积累检测前跟踪（ TBD）算法运算效率低的问题，提出了一种基于动态规划（ DP）和DCFT......

期刊

微弱目标检测检测前跟踪动态规划离散调频傅里叶变换多帧相参积累值函数 weak target detect track-before-detect dy

对几类特殊函数的理解及应用

1 最值函数定义 1 最大数、最小数设a、b∈R，记min{a，b}为a、b中较小的数，max{a，b}为a、b中较大的数，如min{1，-2}=-2，max{1，-2}=1．若a=b，则mi......

期刊

特殊函数应用值函数最大数小数

看过本文同时还关注