RL(13)
-
[RL] HybridFlow: A Flexible and Efficient RLHF Framework
1. Traditional RL FrameworkTraditional RL Framework는 single-controller paradigm을 사용한다. 즉, single-controller가 inter-node communication과 intra-node computation을 모두 관리한다. 구체적으로 말하면, single-controller가1. RL dataflow의 node(actor, critic, etc)마다 process를 할당 해주고,2. node의 연산 수행을 위해 worker가 추가적으로 필요한 경우 추가 worker를 spawn 해주며,3. 각 worker에게 직접 작업을 지시하며, 모든 worker를 직접 지휘한다. 그렇기 때문에, single-controller에 과부화(ov..
2025.07.31 -
[RL] GRPO and Beyond(DAPO, GSPO)
1. Proximal Policy Optimization (PPO)Objective: $$\mathcal{T}_{\mathrm{PPO}}(\theta) = \mathbb{E}_{[q \sim \mathbb{P}(Q), o \sim \pi_{\theta_{\text{old}}}(o|q)]} \left[ \frac{1}{|o|} \sum_{t=1}^{|o|} \min \left[ \frac{\pi_\theta(o_t | q, \alpha_{2. Group Relative Policy Optimization (GRPO)PPO에서 사용되는 Value Function은 Policy 모델과 비슷한 크기의 모델이기 때문에, 상당한 메모리와 연산 자원이 요구된다.LLM에서는 보통 마지막 토큰에만 reward가 제공되기..
2025.07.29 -
[RL] ColossalAI PPO 코드 리뷰 (작성중..)
배경InstructGPT 논문에서는 RLHF의 학습에 PPO 알고리즘이 사용된다고 설명한다.다만, 개인적으로 RLHF의 목표 함수와 PPO의 손실 함수 간의 연관성을 파악하지 못해 학습 과정이 어떻게 이루어지는지 알기 어려웠다. 이를 이해하기 위해 ColossalAI의 PPO 코드를 살펴봤다.코드 리뷰0. PPO 학습 파이프라인1. 학습 준비: PPOTrainer의 생성자PPO 학습에 필요한 네 가지 모델이 인자로 전달되는 것을 확인할 수 있다.- inital_model: SFT 모델- actor: Policy 모델 (=RL 모델)- critic: Value 모델 (= Vπ, 추정 상태 가치 함수)- reward_model: Reward 모델 * 엄밀히 말하면, reward_model은 $Q..
2025.02.21 -
[RL] 8.1. DPO(Direct Preference Optimization): Your Language Model is Secretly a Reward Model
Preview RLHFpreview PPO Reward Model Loss function(rϕ,D)=−E(x,yw,yl)∼D[logσ(rϕ(x,yw)−rϕ(x,yl))]where D={x(i),y(i)w,y(i)l}Ni=1 RLHF Objective function$$\begin{matrix} \text{objective} (\theta) &=& \mathbb E_{x \sim \mathcal D, y \sim \pi_..
2024.05.23 -
[RL] 8. PPO: Proximal Policy Optimization
Actor-Critic은 온-정책(on-policy) 알고리즘이기 때문에, 경험 데이터를 한 번만 사용할 수 있다. 다시 말해, 재사용이 불가하다. PPO(Proximal Policy Optimization)는 이러한 한계점을 개선한 알고리즘이다. 이전에 살펴본 Actor-Critic 수식을 advantage function으로 표현하면 다음과 같다.$$\begin{matrix} \nabla_\theta J(\theta) &=& \mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T (R_t + \gamma V_w(s_{t+1})-V_w(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t)\right] \\ &=& \mathbb E_{\..
2024.05.21 -
[RL] 7.1. Advanced Policy Gradient: A3C, A2C
심층 강화 학습 알고리즘심층 강화 학습 알고리즘은 크게 두 가지로 분류할 수 있다.첫번째, 환경 모델을 사용하는 모델 기반 기법(model-based method)두번째, 환경 모델을 사용하지 않는 모델 프리 기법(model-free method) 모델 기반 기법은 다시 환경 모델이 주어지는 경우와 환경 모델을 학습하는 경우로 나눌 수 있다.모델 프리 기법은 크게 정책 기반 기법과 가치 기반 기법, 그리고 이 둘을 모든 갖춘 기법으로 분류할 수 있다. 이번 글에서는 정책 경사법 계열의 고급 알고리즘 중 분산 학습 알고리즘인 A3C, A2C에 대해 알아볼 것이다.A3C(Asynchronous Advantage Actor-Critic)A3C의 특징은 Asynchronous 즉, '비동기'라는 점이다.여기서..
2024.05.01