Reinforcement Learning via Value Gradient Flow

Haoran Xu*¹, Kaiwen Hu*², Somayeh Sojoudi², Amy Zhang¹

¹UT Austin ²UC Berkeley

* Equal contribution

TLDR: scalable and sample-efficient RL finetuning with generative models using Value Gradient Flow.