为什么单独拿出来,强化学习是和传统机器学习和NN类机器学习完全不同的一类机器学习,挺难的,理论比NN还复杂。
分为两种:policy-based 和 value-based
什么意思呢?pai这个东西是策略库,我有一个agent,在policy里面,我这个agent直接给出执行某个action,而value里面,我这个agent是给出pai对应的value,这个value相当于打分,分数高就好,低就不好。
Q-learning是基于Value的,但是有一点不同,Q(s,a)与V(s),Q加了执行某个action再评估value,V却没有。
直接基于policy的现在很少了,我也不知道哪些模型是这类型的。
A3C是混合型的。
on policy & off policy
on policy: 同一个agent去获取数据,再去更新策略 off policy: 获取数据的agent和更新策略的agent不是同一个
不太好理解,具体看hongyi lee的讲解
value function
value function 和 pilicy-based 里面的 R有什么不一样呢?都是计算后面所有步骤产生的r和,但是value function加了discount
具体还有什么其他的区别我还不太了解,还是要多看看hongyi lee的讲解,再更新
Comments
comments powered by Disqus