Visual-RFT: Visual Reinforcement Fine-Tuningarxiv: https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Visual-RFT_Visual_Reinforcement_Fine-Tuning_ICCV_2025_paper.pdf Abstract OpenAI o1 같은 Large Reasoning Models에서의 Reinforcement Fine-Tuning (RFT)은 자신의 답변에 대한 feedback으로부터 학습하는 방식이며, 특히 fine-tuning data가 부족한 응용에서 매우 유용함.DeepSeek-R1 같은 최근의 open-source 연구는, verifiable reward를 사용하는 reinforceme..