Inverse Reinforcement Learning

使用上节课学习的近似最优模型来获得一个 reward

Why IRL？

如果是理性的推理，可以逐步优化。机器模仿学习往往学习精确的动作，而人类模仿学习会尝试推理对方的意图。有的情况下，reward 并没有那么显然，可能综合考虑了多种因素，所以通过行为推导出 reward 有一定的难度。此外，对于同一种目标行为，可以有多种奖励函数来定义。通过演示推断奖励函数，有多种结果。

形式化定义

例如可以使用： $r_{\psi}(s,a)=\sum_i\psi_i f_i(s,a)$ ，也可以使用神经网络针对 $(s,a)$ 输出对应的奖励。

Feature matching IRL

有一些特征，学习奖励函数，使特征的期望最大。假设 $\pi^{r_{\psi}}$ 是 $r_{\psi}$ 的最优策略，我们需要选择 $\psi$ 使得 $E_{\pi^{r_{\psi}}}[f(s,a)]=E_{\pi^*}[f(s,a)]$ 。

feature: 例如对自动驾驶任务，可以定义为：较少闯红灯，较少急减速，较少发生碰撞……

但是这里存在歧义，因为不同的 $\psi$ 可能有相同的特征期望。为了应对歧义，我们可以进一步定义：

为了区分与专家策略接近的策略，需要找到与 $\pi^*$ 衡量的方式。使用 SVM：通过拉格朗日对偶性，将问题重写为：

可以进一步引入策略之间的相似性：

以上的方法遇到了一些问题：

我们的最终目的是找到一个专家策略，明显比其他策略好！但是这里往往有任意性。

没有关于专家的非最优性行为的清晰模型，无法解释为什么有时候专家也无法做出最优的决策。

在这个优化问题中，约束条件相对复杂，神经网络不容易学习。

所以这里尝试使用 Optimal Control 来模拟人类的行为：

在最优控制中：不预先假设行为主体一定是“最优”的，为了在概率模型里刻画“高回报轨迹更可能出现”，我们给每个时间步 t 增加一个二值随机变量 $O_t$ ，表示“在时刻 t，动作 $a_t$ 在状态 $s_t$ 下是“最优”的（optimal）”。需要求 $p(\tau|O_{1:T})$ ，定义 $p(O_t|s_t,a_t) = \exp(r(s_t,a_t))$ ，即 reward 越大可能更优。又已知：

通过条件概率， $p(\tau|O_{1:T})\propto p(\tau)\exp(\sum\limits_{t}r(s_t,a_t))$

Learning Reward Functions

考虑参数 $\psi$ ： $p(O_t|s_t,a_t,\psi) = \exp(r_{\psi}(s_t,a_t))$ ，通过最大似然估计： $\max\limits_{\psi}\frac{1}{N}\sum_{i=1}^N\log p(\tau_i| O_{1:T},\psi)=\max\limits_{\psi}\frac{1}{N}\sum_{i=1}^Nr_{\psi}(\tau_i)-\log Z$ ， $\log Z$ 作为正则项， $Z=\int p(\tau)exp(r_{\psi}(\tau))d\tau$ 。