随机控制(1)

fan~tasy

217人浏览 · 2026-05-12 17:27:04

fan~tasy · 2026-05-12 17:27:04 发布

p39

1.随机最优控制问题

考虑一个问题：An agent needs to make a decision on consumption and investment.
Time: $[0, T]$ ;
Risk-free interest rate: $r$ ;
Price of a risky asset: ${St:t∈[0,T]}\{ S_t : t \in [0,T] \}$ ,
$\mu S(t) dt +\sigma S(t) dW(t)$
Initial wealth: $X_0=x$
Wealth: ${Xt:t∈[0,T]}\{ X_t : t \in [0,T] \}$
Consumption: ${ct:t∈[0,T]}\{ c_t : t \in [0,T] \}$ （考虑投资+消费）
Portfolio weights: (1)risky asset $ωt\omega_t$ ; (2)money account $1−ωt1-\omega_t$
$\frac{\omega_t X_t}{S_t} dS(t) + (1-\omega_t) X_t r dt - c_t dt$

$=[rXt−ct+ωtXt(μ−r)]dt+ωtXtσdW(t)=\left[ r X_t - c_t + \omega_t X_t (\mu -r) \right] dt +\omega_t X_t \sigma dW(t)$

效用函数
The agent chooses consumption and investment to maximize
$\mathbb{E}\left[ \int_{0}^{T} U(t, c_t) dt + \Phi(X_T) \right]$
注：这是经典的连续时间消费—投资问题（Merton problem）的标准形式。 1.经济学含义：效用来自“消费”，不是股票价格这个模型里：股票价格St本身并不会直接给人带来快乐真正给人带来满足的是：消费（吃饭、住房、娱乐）最终财富（遗产、退休资产等）。 2.Merton 模型的核心目标是：“如何在风险资产和消费之间最优分配财富”因此St已经进入财富动态

Phi_T是终端效用（terminal utility）即到最终时刻T，剩下的钱也有价值。

Utility maximization problem
$\begin{aligned} \max_{\{c_{t},\omega _{t}\}_{t\in \lbrack 0,T]}}\quad &\mathbb{E}\left[ \int_{0}^{T}U(t,c_{t})\,dt+\Phi (X_{T})\right] \\ \text{s.t.}\quad &dX_{t} = \left[ r X_t - c_t + \omega_t X_t (\mu -r) \right] dt +\omega_t X_t \sigma dW(t), \\ &X_{0}=x, \\ &c_{t}\geq 0, \\ &0\leq \omega _{t}\leq 1. \end{aligned}$
stochastic optimal control problem（一般化）
$\begin{aligned} \sup_{\{u_{t}\}_{t\in \lbrack 0,T]}\in U}\quad &\mathbb{E}\left[ \int_{0}^{T}F(s,X_{s}^{u},u_{s})\,ds+G(X_{T}^{u})\right] \\ \text{s.t.}\quad &dX_{t}^{u}=\mu \left( t,X_{s}^{u},u_{t}\right) dt+\sigma \left( t,X_{t}^{u},u_{t}\right) dW(t), \\ &X_{0}^{u}=x. \end{aligned}$
注记：

max改为sup的原因是有可能取不到max。
这里 ${ut}t∈[0,T]\{u_{t}\}_{t\in [ 0,T]}$ 可以是一个决策向量，如上包含了 $c_t$ 和 $ωt\omega_t$ ，control process。
$U$ 是一个决策空间，控制约束。control constraints。
$X_t^u$ 就是一个状态过程，如股票价格状态，依赖于 $x$ and $u$ ，状态由控制决定。state process，depends on $x$ and $u$ 。
$G$ 终点时候，有可能是增益，有可能是惩罚。terminal reward/penalty。
$F$ 瞬间的收益或惩罚。running reward/penalty。

p40

2.贝尔曼最优条件

每个瞬间+最终收益
引入几个概念
1.performance criteria，表现，某一个过程对应的目标函数值是多少。
假设现在是 $t$ 时刻，状态 $x$ ，控制 $u$ 。从 $t$ 时刻往后延伸到 $T$ 往后产生的收益。
$ds+G(XTu)]J(t,x,u)=\mathbb{E}_{t,x} \left[ \int_{t}^{T}F(s,X_{s}^{u},u_{s})\,ds+G(X_{T}^{u})\right]$
注：与此同时， $J$ 是泛函（functional），输入是 $u_s )_{s \in [t, T]}$ 整一个控制过程，输出是一个数，即 $u(⋅)→J(u)u(\cdot) \to J(u)$ ，这就是函数的函数概念。
2.值函数 Value function，从 $t$ 时刻往后延伸到 $T$ 往后的收益加总。
$V(t,x)=sup⁡{uτ}τ∈[t,T]∈UJ(t,x,u)V(t,x)=\sup_{\{u_{\tau}\}_{ \tau \in \lbrack t,T]}\in U} J(t,x,u)$

贝尔曼最优条件
Preliminary: Law of Iterated Expectations, LIE; Tower Property. $E[Y]=E[E(Y∣X)]\mathbb{E}% \left[ Y\right] =\mathbb{E}\left[ \mathbb{E}\left( Y|X\right) \right]$

Remark: The third equality cannot be written as $E[∫τTF(s,Xsu,us)ds+G(XTu)]\mathbb{E}\left[ \int_{\tau }^{T}F(s,X_{s}^{u},u_{s})ds+G(X_{T}^{u})\right]$ . The underlying reason in
stochastic control problems is as follows: $Y$ represents the future payoff $[\tau ,T]$ . From the perspective of time $t$ , it is a completely random
path. However, at time $τ\tau$ , the system state is already deterministic
conditional on $Fτ\mathcal{F}_{\tau }$ . (Accordingly, we first condense the
future random payoff into an $Fτ\mathcal{F}_{\tau}$ -measurable expectation
observable at time $τ\tau$ .) Therefore we first condense the future random
payoff into an expectation that is observable at time $τ\tau$ .

$ds+G(XTu)]J(t,x,u)=\mathbb{E}_{t,x}\left[ \int_{t}^{T}F(s,X_{s}^{u},u_{s})% \,ds+G(X_{T}^{u})\right]$
首先拆分时间段 $[t, T]$ 拆分为 $[t,τ][t,\tau]$ 和 $[τ,T][\tau,T]$
$ds+G(XTu)]=\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+\int_{\tau }^{T}F(s,X_{s}^{u},u_{s})\,ds+G(X_{T}^{u})\right]$
这里为什么要加期望，和
1.从时刻 $t$ 看， $F\mathcal{F}$ 是整个未来完全随机，所以最外层套一个 $Et,x\mathbb{E}_{t,x}$ 没问题。2. $Fτ\mathcal{F}_{\tau}$ 表示的 $τ\tau$ 时刻以前的信息，但是 $t−>τt->\tau$ 这事情确定的，所以写为 $E[∫τTFds+G∣Fτ]\mathbb{E}% \left[ \int_{\tau }^{T}Fds+G\mid \mathcal{F}% _{\tau }\right]$ 。
$ds+G(XTu)∣Fτ]}=\mathbb{E}_{t,x}\left\{ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+\mathbb{E}% \left[ \int_{\tau }^{T}F(s,X_{s}^{u},u_{s})\,ds+G(X_{T}^{u})\mid \mathcal{F}% _{\tau }\right] \right\}$

$ds+J(τ,Xτu,u)]=\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+J(\tau ,X_{\tau }^{u},u)\right]$

$ds]+V(τ,Xτu)\leq \mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds\right] +V(\tau ,X_{\tau }^{u})$

$ds+V(τ,Xτu)]\leq \sup_{\{u_{s}\}_{s\in \lbrack 0,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right]$

$\begin{aligned} \sup_{\{u_{s}\}_{s\in \lbrack t,T]}}J(t,x,u) \leq &\sup_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right] \\ V(t,x) \leq &\sup_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right] \end{aligned}$
接下来需要证明 $≥\ge$ 也成立。
我们定义一个 $ϵ\epsilon$ -最优控制为 $vϵv^{\epsilon}$ 。
Define $ϵ\epsilon$ -optimal control as $vϵv^{\epsilon}$ such that

Define $ϵ\epsilon$ -optimal control as $vϵv^{\epsilon }$ such that $V(t,x)≥J(t,x,vϵ)≥V(t,x)−ϵV(t,x)\geq J(t,x,v^{\epsilon })\geq V(t,x)-\epsilon$ . And then define a control $v~ϵ\tilde{v}^{\epsilon }$ such that $v~ϵ=1({t≤τ})ut,1({t>τ})vϵ\tilde{v}^{\epsilon }=\mathbf{1(\{}t\leq \tau \mathbf{\})}u_{t},\mathbf{1(\{}t>\tau \mathbf{\})}v^{\epsilon }$ .
abitrary control and $ϵ\epsilon$ -optimal control

Then we have
$\begin{equation*} V(t,x)\geq J(t,x,\tilde{v}^{\epsilon })\geq \mathbb{E}_{t,x}\left[ \int_{t}^{T}F(s,X_{s}^{\tilde{v}^{\epsilon }},\tilde{v}^{\epsilon })\,ds+G(X_{T}^{\tilde{v}^{\epsilon }})\right] \end{equation*}$
$\begin{equation*} =\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+\int_{\tau }^{T}F(s,X_{s}^{\tilde{v}^{\epsilon }},v^{\epsilon })\,ds+G(X_{T}^{\tilde{v}% ^{\epsilon }})\right] \end{equation*}$
$\begin{equation*} \geq \mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})-\epsilon \right] \end{equation*}$
because abitrary between $t$ to $τ\tau$
$\begin{equation*} \geq \sup_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})-\epsilon % \right] \end{equation*}$

Let $ϵ→0\epsilon \rightarrow 0$ , then we have

$\begin{equation*} V(t,x)\geq \sup_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right] \end{equation*}$

$\begin{cases} V(t,x) \leq \sup\limits_{\{u_{s}\}_{s\in [t,T]}} \mathbb{E}_{t,x} \left[ \int_{t}^{\tau} F(s,X_{s}^{u},u_{s})\,ds + V(\tau,X_{\tau}^{u}) \right] \\[6pt] V(t,x) \geq \sup\limits_{\{u_{s}\}_{s\in [t,T]}} \mathbb{E}_{t,x} \left[ \int_{t}^{\tau} F(s,X_{s}^{u},u_{s})\,ds + V(\tau,X_{\tau}^{u}) \right] \end{cases}$

$\begin{equation*} V(t,x)=\sup_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right] \end{equation*}$

This is called the Bellman optimality condition.

意即决策一半时候，更新到最优策略，收益也可得到最优

注：从“ $[t, T]$ 的最优价值”=先做“ $\to \tau$ ”这一小段决策得到即时收益+到“ $τ\tau$ 之后”继续采用最优策略得到未来最优的价值。
如果一个策略在整体上最优，那么它从任意未来时刻开始看，后半段也必须是最优的。否则后半段还能改进，那整体就不是最优。

注2：在 $t$ 时刻、系统状态为 $x$ 时，从现在开始一直到终点 $T$ ，所能够获得的最大期望总收益。

3.HJB方程

method: 1.guess and verify 猜一个值函数，然后检验。2.值函数迭代
目前有了贝尔曼最优条件还不够，需要进一步处理，即HJB方程。

apply Ito’s formula to $V(τ,Xτu)V(\tau,X_{\tau }^{u})$ with arbitrary $u$
$\begin{equation*} d\left[ V(\tau ,X_{\tau }^{u})\right] =\frac{\partial V(t,X_{\tau }^{u})}{% \partial t}d\tau +\frac{\partial V(t,X_{\tau }^{u})}{\partial X}dX_{\tau }^{u}+\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}(dX_{\tau }^{u})^{2} \end{equation*}$
因为 $[t, T]$ 划分为 $\tau]$ 和 $(τ,T](\tau, T]$ ，并且各自对应的策略是“固定”和“最优”。而且第一段已经固定了，变化在于第二段。
$∂V(t,Xτu)∂t\frac{\partial V(t,X_{\tau }^{u})}{\partial t}$ 表示value function 对“时间变量”的变化率。真正变化的是 $τ\tau$ 。
$\begin{aligned} =&\left( \frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+\frac{1}{2% }\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \\ &+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\sigma (\tau ,X_{\tau }^{u},u_{\tau })dW_{\tau } \end{aligned}$

🔵 calculate

${\color{blue} dX_t^u=\mu(t,X_s^u,u_t)dt+\sigma(t,X_t^u,u_t)dW(t) }$
simply, $(dXtu)2=σ2(⋅)dτ\color{blue} dX_{t}^{u}=\mu \left( \cdot \right) dt+\sigma \left( \cdot \right) dW(t),\ (dX_{t}^{u})^{2}=\sigma ^{2}\left( \cdot \right)d\tau$ . $Vx[μ(⋅)dt+σ(⋅)dW(t)]\color{blue} V_{x}[\mu \left( \cdot \right) dt+\sigma \left( \cdot \right) dW(t)]$

$d[V(τ,Xτu)]=Vtdτ+Vxμ(⋅)dτ+Vxσ(⋅)dW(t)+12Vxxσ2(⋅)dτ=[Vt+Vxμ(⋅)+12Vxxσ2(⋅)]dτ+Vxσ(⋅)dW(t)\color{blue} \begin{aligned} d\left[ V(\tau ,X_{\tau }^{u})\right] &=V_{t}d\tau +V_{x}\mu \left( \cdot \right) d\tau +V_{x}\sigma \left( \cdot \right) dW(t)+\frac{1}{2}V_{xx}\sigma ^{2}\left( \cdot \right) d\tau \\ &=\left[ V_{t}+V_{x}\mu \left( \cdot \right) +\frac{1}{2}V_{xx}\sigma^{2}\left( \cdot \right) \right] d\tau +V_{x}\sigma \left( \cdot \right)dW(t) \end{aligned}$

Integrate both sides from $t→t+ht\rightarrow t+h$
$\begin{aligned} &V(t+h,X_{t +h}^{u})-V(t,X_{t}^{u}) \\ =&\int_{t}^{t+h}\left( \frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{% \partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+% \frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \\ &+\int_{t}^{t+h}\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\sigma (\tau ,X_{\tau }^{u},u_{\tau })dW_{\tau } \end{aligned}$

注：

在随机过程中，伊藤积分通常写作：
$It=∫0tXsdWsI_t = \int_0^t X_s dW_s$

其中 $W_s$ 是标准布朗运动（Brownian Motion）。布朗运动可以看作是无数个微小的、无方向的随机震荡。

2. “Martingale increment”（鞅增量）是什么意思？

Martingale（鞅）：在概率论中，鞅代表一个“公平游戏”。这意味着如果你知道了直到今天为止的所有信息，你对明天财富的最佳预测就是你今天的财富。
Increment（增量）：即这一小段时间内的变化量 $dI_t = X_t dW_t$ 。
结论：说伊藤积分是“鞅增量”，意味着这一小段随机积分的变化是不带“趋势”的，它完全是由随机扰动驱动的，没有偏向增加或减少的预设动力。

3. “条件期望为 0”意味着什么？

$s<t)\mathbb{E}[X_t dW_t \mid \mathcal{F}_s] = 0 \quad (\text{对于 } s < t)$

这里的 $Fs\mathcal{F}_s$ 代表直到 $s$ 时刻为止的所有已知信息。

直观理解：虽然我们不知道 $dW_t$ 具体会跳向哪里，但在已知当前所有信息的情况下，它向上跳和向下跳的概率是平衡的。

4. 这句话的实际用途

在推导伊藤引理（Itô’s Lemma）或者求解随机微分方程（SDE）时，这个性质非常强大：

简化计算：当我们对一个随机微分方程两边取期望时，所有的伊藤积分项（鞅增量项）都会直接消失（变成 0）。
提取趋势：这能帮助研究者把“确定性的趋势（Drift）”从“纯粹的随机波动（Diffusion）”中分离出来。

总结一下：
这句话的意思是，伊藤积分所代表的随机波动部分是纯粹的噪声，它不包含任何可以被提前预知的系统性偏差。 如果你在这一刻预测下一刻这段积分的变化，你的最优估计只能是 0。

Apply the expectation operator $Et,x\mathbb{E}_{t,x}$
$\begin{equation*} \mathbb{E}_{t,x}\left[ V(t+h,X_{\tau +h}^{u})\right] -V(t,X_{t}^{u}) \end{equation*}$
$\begin{equation*} =\mathbb{E}_{t,x}\left[ \int_{t}^{t+h}\left( \frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })\frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{% \partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau % \right] \end{equation*}$

注： $V(t+h,X_{t +h}^{u})-V(t,X_{t}^{u})$ ，这里最主要是 $V(t+h,X_{t +h}^{u})$ 中 $X_{t+h}^{u}$ 是随机变量。在 $t$ 时刻的时候，时间和状态都是确定的。但是在未来时刻 $t + h$ 时刻，未知。

$\begin{equation*} \mathbb{E}_{t,x}\left[ V(t+h,X_{t+h}^{u})\right] =V(t,X_{t}^{u})+\mathbb{E}% _{t,x}\left[ \int_{t}^{t+h}\left( \frac{\partial V(t,X_{\tau }^{u})}{% \partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })\frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \right] \end{equation*}$
$\begin{equation*} V(t+h,X_{t+h}^{u})=V(t,X_{t}^{u})+\int_{t}^{t+h}\left( \frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X% }\mu (\tau ,X_{\tau }^{u},u_{\tau })+\frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \end{equation*}$

by Bellman optimality condition

$\begin{equation*} V(t,x)=\sup\limits_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{\tau }F(s,X_{s}^{u},u_{s})\,ds+V(\tau ,X_{\tau }^{u})\right] \end{equation*}$
这里我们把原来的 $τ\tau$ 改为 $t + h$ ，然后去掉 $sup⁡\sup$ ，但是注意变为大于等于。
$\begin{equation*} V(t,x)=\sup\limits_{\{u_{s}\}_{s\in \lbrack t,T]}}\mathbb{E}_{t,x}\left[ \int_{t}^{t+h}F(s,X_{s}^{u},u_{s})\,ds+V(t+h,X_{t+h}^{u})\right] \end{equation*}$
$\begin{equation*} \geq \mathbb{E}_{t,x}\left[ \int_{t}^{t+h}F(s,X_{s}^{u},u_{s})% \,ds+V(t+h,X_{t+h}^{u})\right] \end{equation*}$
$\begin{aligned} V(t,x) \geq &\mathbb{E}_{t,x}\left[ \int_{t}^{t+h}F(s,X_{s}^{u},u_{s})\,ds+V(t,x)+% \right. \\ &\int_{t}^{t+h}\left( \frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{% \partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+% \frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \end{aligned}$

$\begin{equation*} =V(t,X_{t}^{u})+\mathbb{E}_{t,x}\left[ \int_{t}^{t+h}\left( F(\tau ,X_{\tau }^{u},u_{\tau })\,d\tau +\frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+\frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \right] \end{equation*}$
then we have
$\begin{equation*} 0\geq \mathbb{E}_{t,x}\left[ \int_{t}^{t+h}\left( F(\tau ,X_{\tau }^{u},u_{\tau })\,+\frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{% \partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+% \frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \right] \end{equation*}$

divide both sides by $h$
$\begin{equation*} 0\geq \mathbb{E}_{t,x}\left[ \frac{1}{h}\int_{t}^{t+h}\left( F(\tau ,X_{\tau}^{u},u_{\tau })\,d\tau +\frac{\partial V(t,X_{\tau }^{u})}{\partial t}+\frac{\partial V(t,X_{\tau }^{u})}{\partial X}\mu (\tau ,X_{\tau }^{u},u_{\tau })+\frac{1}{2}\frac{\partial ^{2}V(t,X_{\tau }^{u})}{\partial X^{2}}\sigma ^{2}(\tau ,X_{\tau }^{u},u_{\tau })\right) d\tau \right] \end{equation*}$
let $h→0h\rightarrow 0$ , then
这里简单说明就是积分中值定理+连续性，最后令中指epsilon取t
补充：
积分中值定理： $1h∫tt+hf(τ)dτ=f(ξ),ξ∈[t,t+h]\frac{1}{h}\int_{t}^{t+h} f(\tau) d\tau=f(\xi), \quad \xi \in [t, t+h]$ 。
所以简写一下， $\ge \mathbb{E} \frac{1}{h}\int_{t}^{t+h} H(\tau, X_{\tau}^{u}, u_{\tau}) d\tau$ ，
$1h∫tt+hH(τ,Xτu,uτ)dτ=H(ξh,Xξhu,uξh)\frac{1}{h}\int_{t}^{t+h} H(\tau, X_{\tau}^{u}, u_{\tau}) d\tau = H(\xi_{h}, X_{\xi_{h}}^{u}, u_{\xi_{h}})$
然后我们取值 $ξh=t\xi_{h}=t$ ， $H(t, X_{t}^{u}, u_{t})$ ，
$Et,x[H(t,Xtu,ut)]≤0\mathbb{E}_{t,x} [H(t, X_{t}^{u}, u_{t})] \le 0$
这里 $Et,x\mathbb{E}_{t,x}$ ，也就是在 $t$ 时刻，系统的状态时刻为 $x$ 。也就是在 $t$ 时刻，信息是已知的 $E(⋅∣Xt=x)\mathbb{E}( \cdot | X_{t} = x)$ 。
然后 $H(t, X_{t}^{u}, u_{t})$ 就是常数(已知)了， $Et,x[H(t,Xtu,ut)]=H(t,Xtu,ut)\mathbb{E}_{t,x} [H(t, X_{t}^{u}, u_{t})] = H(t, X_{t}^{u}, u_{t})$ ，然后把 $H(t, X_{t}^{u}, u_{t})$ 复原。

$\begin{equation*} 0\geq F(t,X_{t}^{u},u_{t})\,+\frac{\partial V(t,X_{t}^{u})}{\partial t}+% \frac{\partial V(t,X_{t}^{u})}{\partial X}\mu (t,X_{t}^{u},u_{t})+\frac{1}{2}% \frac{\partial ^{2}V(t,X_{t}^{u})}{\partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t}) \end{equation*}$
the inequality becomes an equality when $u$ is optimal
$\begin{equation*} \sup_{u_{t}}F(t,X_{t}^{u},u_{t})\,+\frac{\partial V(t,X_{t}^{u})}{\partial t}% +\frac{\partial V(t,X_{t}^{u})}{\partial X}\mu (t,X_{t}^{u},u_{t})+\frac{1}{2% }\frac{\partial ^{2}V(t,X_{t}^{u})}{\partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t}) \end{equation*}$
$\begin{equation*} \frac{\partial V(t,X_{t}^{u})}{\partial t}+\sup_{u_{t}}F(t,X_{t}^{u},u_{t})% \,+\frac{\partial V(t,X_{t}^{u})}{\partial X}\mu (t,X_{t}^{u},u_{t})+\frac{1% }{2}\frac{\partial ^{2}V(t,X_{t}^{u})}{\partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t})=0 \end{equation*}$
这里是终端条件，终端收益
Also, notice that
$\begin{equation*} V(T,x)=G(x) \end{equation*}$
then we have the following partial differential equation
$\begin{cases} \displaystyle \frac{\partial V(t,X_{t}^{u})}{\partial t}% +\sup_{u_{t}}F(t,X_{t}^{u},u_{t})\,+\frac{\partial V(t,X_{t}^{u})}{\partial X% }\mu (t,X_{t}^{u},u_{t})+\frac{1}{2}\frac{\partial ^{2}V(t,X_{t}^{u})}{% \partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t})=0 \\[4pt] V(T,x) = G(x) \end{cases}$
This is called Hamiton-Jacobi-Bellman equation(HJB).

4.运用HJB方程求解最优消费投资问题

怎么写
How to solve a stochastic optimal control problem?
$\begin{aligned} \sup_{\{u_{t}\}_{t\in \lbrack 0,T]}\in U}\quad &\mathbb{E}\left[ \int_{0}^{T}F(s,X_{s}^{u},u_{s})\,ds+G(X_{T}^{u})\right] \\ \text{s.t.}\quad &dX_{t}^{u}=\mu \left( t,X_{t}^{u},u_{t}\right) dt+\sigma \left( t,X_{t}^{u},u_{t}\right) dW(t), \\ &X_{0}^{u}=x. \end{aligned}$
①write down HJB equation
$\begin{cases} \displaystyle \frac{\partial V(t,X_{t}^{u})}{\partial t}% +\sup_{u_{t}}F(t,X_{t}^{u},u_{t})\,+\frac{\partial V(t,X_{t}^{u})}{\partial X% }\mu (t,X_{t}^{u},u_{t})+\frac{1}{2}\frac{\partial ^{2}V(t,X_{t}^{u})}{% \partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t})=0 \\[4pt] V(T,x) = G(x) \end{cases}$
②solve for $u∗u^{\ast}$ in terms of $V$
$+∂V(t,Xtu)∂Xμ(t,Xtu,ut)+12∂2V(t,Xtu)∂X2σ2(t,Xtu,ut)\sup_{u_{t}}F(t,X_{t}^{u},u_{t})\,+\frac{\partial V(t,X_{t}^{u})}{\partial X% }\mu (t,X_{t}^{u},u_{t})+\frac{1}{2}\frac{\partial ^{2}V(t,X_{t}^{u})}{% \partial X^{2}}\sigma ^{2}(t,X_{t}^{u},u_{t})$
③plug $u∗u^{\ast}$ back to HJB equation, and then solve $V$ 。难
数值解，或验证