pubDate: 2024-05-09
author: sakakibara
強化学習
torchrl
より、厳密に問題を設定しよう。 Agent Env observation: S_t action: A_t reward: R_t G_t pi p r Q(a, s) V(s)
Q(a, s)
V(s)