強化学習: 価値関数とベルマン方程式

Astroの光線のサムネイル。

pubDate: 2024-05-09

author: sakakibara

問題設定

より、厳密に問題を設定しよう。 Agent Env observation: S_t action: A_t reward: R_t G_t pi p r Q(a, s) V(s)

価値関数

Q(a, s)

状態関数

V(s)

ベルマン方程式

方策反復法

価値反復法

動的計画法: モデルがわかっている場合

モンテカルロ法: モデルがわからない場合

TD法: モデルがわからず、オンラインで学習する場合

Q学習

深層Q学習