Name
..
梯度赌博机算法中,偏好函数更新:梯度上升公式是精确梯度上升的随机近似的证明.md
第10章:基于函数逼近的同轨策略控制.md
第11章:基于函数逼近的离轨策略方法.md
第12章:资格迹.md
第13章:策略梯度方法.md
第9章:基于函数逼近的同轨策略预测.md
策略改进(Policy Improvement)使策略更优的数学证明.md
表格型方法总结.md