金沙澳门9159官网强化学习读书笔记 - 09 - on-poli

2019-10-20 作者:产品测评   |   浏览(185)

6月22日,应数学与信息科学学院邀请,南京师范大学博士生导师高洪俊教授在数学学院南楼s103会议室作了题为“Stochastic strong solutions for stochastic transport equations”的学术报告。学院相关专业的教师、本科生、研究生等40余人聆听了此次报告。

强化学习读书笔记 - 09 - on-policy预测的近似方法

报告中,高洪俊介绍了一类乘法噪声驱动的随机输运方程的强解的相关内容。对于在空间$L^q(0,T;{ mathcal C}^alpha_b({ mathbb R}^d))$ ($alpha>2/q$)中的漂移系数及在空间$W^{1,r}({ mathbb R}^d)$中的初值,高洪俊给出了随机强解的存在唯一性的证明。同时,高洪俊指出与在同等条件下的确定性的情况相反的是,这类乘法的随机布朗型运动扰动足以促使方程的解适定。对于$alpha+1<2/q$且空间维数高于1的情形,可选择合适的初值条件及漂移系数得到强解的不存在性。此外,若漂移系数属于$L^q(0,T;W^{1,p}({ mathbb R}^d))$可得到随机强解的整体可积性,此结果回答了Fedrizzi 和Flandoli提出的漂移系数在$L^q(0,T;L^p({ mathbb R}^d))$空间中的问题,因而部分地推广了他们早期的结果。

参照

需要了解强化学习的数学符号,先看看这里:

这一章开始了第二部门 - 近似解决方案

讲座结束后,部分教师与学生结合讲座内容与高洪俊进行了热烈的交流。

近似方法的重要性

我们先看看传统方法中存在的问题:

  • 不适用复杂的环境。主要原因是状态和行动太多,策略需要大量空间来记忆策略价值。
  • 环境可能是不稳定的,过去的经验不能适用于未来的情况。需要一个通用性的方法来更新策略价值。
  • 策略价值是一个数值,缺乏通用性。期望有一个通用的方法来计算策略价值。

所以对近似预测方法的理解是,找到一个通用的方法(hat{v}(s, theta))。
数学表示
[ hat{v}(s, theta) approx v_{pi}(s) \ where \ theta text{ - a weight vector} \ theta doteq (theta_1, theta_2, ..., theta_n)^T ]

解释
近似预测方法是指求策略的状态价值的近似值。
求策略的行动状态价值的近似值叫做近似控制方法(Control Methods)(下一章的内容)。

专家简介:

近似预测方法的目标

首先,我们需要找到一个判断近似预测方法质量的计算公式。

价值均方误差(Mean Squared Value Error)
[ MSVE(theta) = sum_{s in mathcal{S}} d(s) [v_{pi} - hat{v}(s, theta)]^2 \ where \ d(s) text{ - on-policy distribution, the fraction of time spent in s under the target policy } pi \ ]

  • 在情节性任务中
    [ eta(s) = h(s) + sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S} \ d(s) = frac{eta(s)}{sum_{s'} eta(s')} \ where \ eta(s) text{ - the number of time steps spent in state s in a single episode} \ h(s) text{ - time spent in a state s if episodes start in it} ]

  • 在连续性任务中
    [ d(s) = text{ the stationary distribution under } pi \ ]

解释:
(eta(s) = h(s) + sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S})
状态s的发生时间(次数) = 在情节中状态s发生在开始的时间(次数) + 状态s发生在其它的时间(次数)

高洪俊,南京师范大学教授、博士生导师,科技处处长。美国数学评论评论员,Stochastics and Dynamics编委,南京师范大学学报自然科学版副主编,江苏省工业与应用数学学会副理事长,江苏省高校“大规模复杂系统数值模拟”重点实验室副主任,江苏省“青蓝工程”中青年学术带头人,江苏省“333”工程第三层次培养人选,国防科工委科技进步奖一等奖获得者.目前研究兴趣为非线性发展方程和无穷维动力系统,物理、力学和地球科学(Geoscience)中的随机偏微分方程和无穷维随机动力学。已发表包括Adv. Math.、SIAM J. Math. Anal.、J.Differential Equations和中国科学在内的国内外重要期刊论文160多篇。多次主持国家基金项目,参与973项目,目前主持国家自然科学基金重点项目,江苏省自然科学基一项,江苏省青蓝工程科研基金一项。

随机梯度递减方法(Stochastic gradient descend method)

那么如何求(theta)呢?一个常见的方法是通过梯度递减的方法,迭代的求解(theta)。

(数学与信息科学学院 范丽丽 苗山根)

随机梯度递减算法

Stochastic gradient descend
[ begin{align} theta_{t+1} & doteq theta_{t} - frac{1}{2} alpha nabla [v_{pi}(S_t) - hat{v}(S_t, theta_t)]^2 \ & = theta_{t} + alpha [v_{pi}(S_t) - hat{v}(S_t, theta_t)] nabla hat{v}(S_t, theta_t) \ end{align} \ where \ nabla f(theta) doteq left ( frac{partial f(theta)}{partial theta_1}, frac{partial f(theta)}{partial theta_2}, cdots, frac{partial f(theta)}{partial theta_n} right )^T \ alpha text{ - the step size, learning rate} ]

解释
这个方法可以在多次迭代后,让(theta)最优。
(v_{pi}(S_t))是实际值。
(hat{v}(S_t, theta_t))是当前计算值。
随机梯度递减方法通过误差(实际值 - 当前计算值)接近最优值的方法。
比较麻烦的是:如何求(nabla hat{v}(S_t, theta_t))。
传统的方法是求(v_{pi}(s), q_{pi}(s, a)),在近似方法中变成了求(theta, hat{v}(s, theta), hat{q}(s, a,theta))。

蒙特卡洛

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : mathcal{S} times mathbb{R^n} to mathbb{R})

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Generate an episode (S_0, A_0, R_1 ,S_1 ,A_1, cdots ,R_t ,S_t) using class="math inline">(pi)
      For (t = 0, 1, cdots, T - 1)
       (theta gets theta + alpha [G_t -hat{v}(S_t, theta)] nabla hat{v}(S_t, theta))

半梯度递减方法(Semi-gradient method)

之所以叫半梯度递减的原因是TD(0)和n-steps TD计算价值的公式不是精确的(而蒙特卡罗方法是精确的)。

本文由金沙澳门9159官网发布于产品测评,转载请注明出处:金沙澳门9159官网强化学习读书笔记 - 09 - on-poli

关键词:

  • 上一篇:没有了
  • 下一篇:没有了