强化学习 - TechLoveDeath

为什么单独拿出来，强化学习是和传统机器学习和NN类机器学习完全不同的一类机器学习，挺难的，理论比NN还复杂。

分为两种：policy-based 和 value-based

reinfoecement learning

什么意思呢？pai这个东西是策略库，我有一个agent，在policy里面，我这个agent直接给出执行某个action，而value里面，我这个agent是给出pai对应的value，这个value相当于打分，分数高就好，低就不好。

Q-learning是基于Value的，但是有一点不同，Q(s,a)与V(s)，Q加了执行某个action再评估value，V却没有。

直接基于policy的现在很少了，我也不知道哪些模型是这类型的。

A3C是混合型的。

on policy: 同一个agent去获取数据，再去更新策略 off policy: 获取数据的agent和更新策略的agent不是同一个

不太好理解，具体看hongyi lee的讲解

value function 和 pilicy-based 里面的 R有什么不一样呢？都是计算后面所有步骤产生的r和，但是value function加了discount

具体还有什么其他的区别我还不太了解，还是要多看看hongyi lee的讲解，再更新