Publications

Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models.

Published in Sep 27, 2025, 2025

We propose ADRPO, a method that dynamically adjusts divergence regularization strength based on advantage estimates, enabling more effective fine-tuning of generative models by automatically balancing exploration and exploitation at the sample level.

Download here

Tong

Publications

Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models.