[23’] RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Date: 2024.06.11 Updated: 2024.06.11

카테고리: Language

🔍 Abstract

Google Research에서 2023년 발표한 RLAIF 논문이다. 본 논문은 RLHF에 RLAIF가 비견할 정도의 성능을 낸다고 주장했는데, ICLR 측에서는 (1) 다양한 LLM 모델이 아닌 PaLM으로만 실험을 진행했고 (2) 충분히 논리적인 뒷받침이 되지 않는다고 판단하였기에 2024년 ICLR에서 reject되었다. 전반적으로 몇 개의 실험만을 가지고 너무 과한 주장을 하는 것이 아니냐 하는 비판이 있기에, 이를 비판적으로 생각하고 논문을 읽기를 권한다.

이 논문이 RLAIF를 처음 제안한 논문은 아니다. 2022년 Anthropic에서 “Constitutional AI: Harmlessness from AI Feedback”이라는 논문에서 처음으로 시도된 테크닉인데, 본 논문에서는 Anthorpic의 논문이 오로지 AI에 의존한 것이 아니라 Human과 AI의 preference를 적당히 융합한 hybrid technique이라고 주장한다.

본 논문에서는 오로지 AI Preference를 활용하여 RLAIF를 구축하였다. 이어서 RLAIF와 RLHF를 비교하는 데 집중하였으며, 주요 Contribution을 다음과 같이 주장한다.

RLAIF가 RLHF와 비슷하거나 더 좋은 성능을 보인다.
LLM labeler가 policy와 동일한 size를 가지는 경우에도 RLAIF가 효과적이다.
Direct RLAIF가 Canonical RLAIF (Distillation)보다 더 좋은 성능을 보인다.

아직 와닿지 않는 용어들이 많을 것이라고 생각한다. 이제 Method와 Result를 살펴보며 하나씩 이해해보자.

1. Method

1.1. RLHF vs. RLAIF

RLHF와 RLAIF의 과정을 큰 틀에서 비교해보자. 먼저 RLHF 과정은 다음과 같이 정리할 수 있다.

Original Policy $\pi^ {\text{SFT}}$로부터 두 개의 답 $(y_1, y_2) \sim \pi^ {\text{SFT}} (y \vert x)$를 얻는다.
Human Prefenrence를 통해 더 좋은 답을 선택하고, 데이터셋 $\mathcal{D} = \lbrace (x, y_w, y_l) \rbrace$를 구축한다.
데이터셋 $\mathcal{D}$를 사용해 Reward model $r_ \phi(x, y)$를 학습한다.
Reward가 최대가 되도록 policy $\pi_ \theta ^ {\text{RL}}$를 학습한다.

기본적인 RLAIF 과정은 여기서 Human Preference를 AI Preference로 바꾼 것이다. 이를 저자들은 Distilled RLAIF라고 부른다. Preference를 제공하는 AI 모델의 지식을 reward model로 distillation하는 것이기 때문이다.

Original Policy $\pi^ {\text{SFT}}$로부터 두 개의 답 $(y_1, y_2) \sim \pi^ {\text{SFT}} (y \vert x)$를 얻는다.
AI Prefenrence를 통해 더 좋은 답을 선택하고, 데이터셋 $\mathcal{D} = \lbrace (x, y_w, y_l) \rbrace$를 구축한다. AI Preference를 얻는 방법은 1.2절에서 자세히 설명하겠다.
데이터셋 $\mathcal{D}$를 사용해 Reward model $r_ \phi(x, y)$를 학습한다.
Reward가 최대가 되도록 policy $\pi_ \theta ^ {\text{RL}}$를 학습한다.

여기서 한 가지 의문점이 든다. AI Preference를 그대로 reward로 사용하면 한 단계를 건너뛸 수 있을 것 같은데? 그래서 이러한 방법론을 Direct RLAIF라고 부른다.

Original Policy $\pi^ {\text{SFT}}$로부터 두 개의 답 $(y_1, y_2) \sim \pi^ {\text{SFT}} (y \vert x)$를 얻는다.
AI Prefenrence를 통해 곧바로 reward $r_ \phi(x, y)$를 얻는다. $y_1, y_2$ 중에 선호하는 답을 선택하던 기존 AI Preference와는 달리, 1점부터 10점 중 점수를 매기도록 하는 prompt를 사용한다는 점이 차이점이다.
Reward가 최대가 되도록 policy $\pi_ \theta ^ {\text{RL}}$를 학습한다.

그럼 이제 AI Preference를 얻는 방법을 살펴보자.

1.2. AI Preference Labeling

위 그림이 AI Preference Labeling 과정을 아주 잘 나타낸다. 크게 (1) Premable(일종의 prompting) (2) Sample $(x, y_1, y_2)$ (3) Ending으로 나눌 수 있다. 이를 LLM에 넣어 더 선호하는 답을 선택하도록 하고, 이를 다시 LLM에 넣으면 Preferred Summary= 바로 뒤에 나올 값의 log-likelihood를 구할 수 있다. 이를 통해 AI Preference를 $[1, 0]$과 같은 one-hot encoding이 아닌 $[0.6, 0.4]$와 같은 soft label로 얻을 수 있다. Reward model은 이렇게 얻은 soft label을 학습한다.

위 내용은 Distilled RLAIF에 해당하는 내용이고, Direct RLAIF에서도 비슷하게 점수 1점 ~ 10점 각 token의 likelihood를 구하여 reward로 사용한다.

1.3. Experimental Details

Google Research의 논문답게 LLM으로는 2023년 Google에서 발표한 PaLM 2를 사용하였고, RL 알고리즘으로는 흔히 사용되는 PPO가 아닌 더 간단한 알고리즘인 REINFORCE를 사용하였다. 저자들은 이러한 간단한 알고리즘으로도 LLM을 fine-tuning하는 데에는 충분하다고 생각했다.

2. Result

2.1. Quantitative Results

Result 표를 보기 전에 몇 가지 저자들이 정의한 용어들을 알면 도움이 된다.

same-size RLAIF. 일반적인 실험에서 저자들은 reward model로 PaLM 2 L을 사용하였고, policy로 PaLM 2 XS를 사용하였다. 저자들은 reward model이 policy 정도로 작은 경우에도 RLAIF가 효과적인지 확인하기 위해 reward model을 PaLM 2 XS로 바꾸어 보았고, 이를 same-size RLAIF라고 부른다. 참고로, LLM labeler는 모두 PaLM 2 L이다.
direct RLAIF. 1.1절에서 설명한 direct RLAIF 방법으로 학습하였으며, 이때 reward model은 PaLM 2 XS이다.

Main result는 위와 같다. 이제 위에서 정리했던 내용이 모두 정리된다.

RLAIF가 RLHF와 비슷하거나 더 좋은 성능을 보인다.
LLM labeler가 policy와 동일한 size를 가지는 경우에도 RLAIF가 효과적이다.
Direct RLAIF가 Canonical RLAIF (Distillation)보다 더 좋은 성능을 보인다.

놀라운 점은, Direct RLAIF는 PaLM 2 XS 모델만을 사용하였음에도 불구하고 Distilled RLAIF에서 PaLM 2 L Labeler + PaLM 2 XS Reward model을 사용한 것보다 더 좋은 성능을 보인다는 것이다. 이는 AI Preference를 그대로 reward로 사용하는 것이 효과적이라는 것을 보여준다.

2.2. Qualitative Observations

이 부분은 저자들의 주관이 포함되어 있을 수 있기에 “Result”보다는 “Observation”에 가깝다고 생각한다. 먼저 RLAIF와 RLHF 모두 SFT보다 더 긴 응답을 생성하는 경향성이 있었다. 이는 이전 연구에서도 관찰된 것이다.

RLAIF와 RLHF의 차이를 보면, RLHF가 더 hallucination을 잘 일으키는 편이고, RLAIF는 문법적으로, 혹은 논리적으로 조금 연결되지 않는 부분이 많았다고 한다. 아래의 예시가 각각을 잘 나타낸다. 빨간색으로 표시된 부분이 잘못된 부분이다.

💡 Summary

본 논문의 가장 큰 contribution은 Direct RLAIF라는 방법론을 통해 성능을 향상시킨 것이라 생각한다. 다만, RLHF보다 RLAIF가 항상 더 뛰어나다고 하기에는 실험 결과가 약간 부족하다고 생각한다.

📃 Reference

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

I'm rubatoyeong