PPO in RLHF

2024. 11. 12. 00:24카테고리 없음

rlhf에서 ppo를 사용했다는 것은 ppo의 목표 함수가 아닌 알고리즘을 사용한 것 같다.

 

instructGPT는 언어 모델의 환경은 bandit라 설명한다. 즉, $G(\tau)$를 바로 구할 수 있다는 점이다. 즉, 추정할 필요가 없다.

그렇기 때문에 v 신경망도 없어도 된다.