[24’ ICML] Self-Rewarding Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

오늘은 ICML 2024에서 주목을 받은 Metaself-rewarding language models 논문을 리뷰하려고 한다. 알파고가 강화학습을 통하여 사람의 성능을 뛰어넘은 것처럼, LLM 또한 superhuman agent가 되기 위해서는 superhuman feedback이 필요하다는 것이 기본 주장이다. 지금까지의 RLHF 방식은 human preference를 통해 학습하는 방식이었다면, 이 논문에서는 self-rewarding을 통해 학습하는 방식을 제안한다. 이 방법은 (1) Instruction following ability를 높일 뿐만 아니라, (2) self-rewarding quality도 높일 수 있었다. 이를 통해 비교적 적은 Open dataset만을 활용해 현존하는 많은 모델들을 상회하는 성능을 얻을 수 있었다.


1. Self-Rewarding Language Models

image

학습의 큰 그림은 위와 같이 (1) Self-Instruction creation, (2) Instruction following training으로 나눌 수 있다. Self-Instruction creationLLM-as-a-Judge 메커니즘에 의해 생성되며, Instruction following trainingDPO를 통해 이루어진다. 각각의 과정을 차근차근 살펴보자.


1.1. Initialization

제안된 Framework에서는 하나의 LLM 모델이 Instruction following abilityRewarding ability를 동시에 가져야 하므로, 각각의 성능을 향상시키기 위해 각각의 데이터셋을 포함하여 초기 학습을 진행한다. 각각을 정리하면 다음과 같다.

  • Instruction following ability: 저자들은 이 데이터를 IFT(Instruction Fine-Tuning) data라고 부르며, 일반적인 SFT dataset이라고 생각하면 된다. Open Assistant dataset에서 3200개의 대화를 사용하였다.
  • Rewarding ability: 저자들은 이 데이터를 EFT(Evaluation Fine-Tuning) data라고 부르며, LLM-as-a-Judge 파이프라인에서 학습하는 것이라고 생각하면 된다. 물론, SFT만으로도 rewarding이 가능하나, EFT 데이터를 사용한 경우 rewarding 성능이 향상되는 것을 관찰했다고 한다. Open Assistant dataset에서 전처리 과정을 거쳐 1630개의 데이터를 사용하였다. 이 경우 output은 5점 만점의 final score와 CoT justification이다.


1.2. Self-Instruction Creation

이제 본격적인 self-rewarding framework로 들어가보자. Self-Instruction Creation은 DPO와 같은 강화학습 과정에 학습할 데이터를 LLM이 직접 생성하는 과정이라고 생각할 수 있다. 이 과정은 다음과 같이 3단계로 이루어진다.

  1. Prompt 생성: Overfitting 문제를 피하기 위해 Iteration마다 새로운 Prompt를 생성해야 한다. Few-shot prompting 방법을 사용하여 IFT 데이터에서 사용하는 Prompt와 유사한 Prompt $x_i$를 생성한다. 이때 LLM은 기존 ChatBot을 사용해도 되고, 학습하고자 하는 LLM 모델 $M_ t$를 사용해도 된다.
  2. Prompt에 대한 답변 생성: 생성된 Prompt에 대한 답변을 모델 $M_ t$를 사용하여 생성한다. 이때 여러 candidate $\lbrace y_ i ^ 1, \cdots, y_ i ^ N \rbrace$를 생성한다.
  3. 답변 평가: 모델 $M_ t$의 LLM-as-a-Judge 능력을 믿고 답변을 0~5점 사이의 점수 $r_ i ^ n$로 평가한다.

답변 평가, 즉 rewarding 시에는 다음과 같은 잘 짜여진 prompt를 사용하였다.

image

저자들은 해당 prompt가 정확한 rewarding을 하는 데 굉장히 중요하다고 언급했다. 여러 prompt를 시험해 보았으나, 위와 같이 답변의 여러 측면을 additive하게 평가하는 것이 가장 좋은 결과를 보였다고 한다.

이렇게 생성한 데이터를 AIFT(AI Feedback Training) data라고 부르며, 각 모델 $M_t$가 생성한 AIFT를 AIFT($M_t$)로 표기한다. 실험 시 AIFT($M_1$)은 대략 4000개, AIFT($M_2$)는 대략 7000개의 데이터를 생성하였다. 이를 기존 학습 데이터에 augmentation하여 DPO 학습에 활용한다. 이때 AIFT는 저자가 원하는 대로 IFT와 유사한 분포를 가지는 것으로 확인되었다.

image


1.3. Instruction Following Training

DPO 학습을 위하여 preference data를 구축해야 한다. 이를 위해 AIFT($M_t$)를 사용하는데, 최고점을 받은 response $y_ i ^ w$과 최저점을 받은 response $y_ i ^ l$을 사용하여 $(x_i, y_ i ^ w, y_ i ^ l)$ 형태의 데이터셋을 구축한다. 이를 DPO로 학습한다.


1.4. Overall Self-Alignment Algorithm

전체 과정을 정리하면 다음과 같다.

image


2. Experiments

2.1. Core Evaluation

먼저 핵심 결과인 GPT-4 Evaluation, Human Evaluation 결과는 다음과 같다.

image
image

SFT Baseline은 IFT + EFT가 아니라 IFT만으로 학습한 경우를 의미한다. 학습함에 따라 초기 EFT 학습은 약간 성능을 저하시키지만, 이후 self-rewarding이 진행될수록 큰 폭으로 기존 모델을 뛰어넘는 성능을 보였다.

다른 모델들과 비교한 결과는 다음과 같다. 적은 데이터만으로 학습한 모델임에도 불구하고 GPT-4와 비슷한 성능을 보였다.

image

Self-rewarding 학습 과정에서 더 이상의 reward model 학습은 없었지만, 학습에 따라 human preference data와 유사한 rewarding을 하게 되는 것을 관찰할 수 있었다. 이를 통해 self-rewarding framework에서의 instruction following DPO 학습이 더 좋은 reward를 주는 것에도 영향을 미치는 것을 확인할 수 있었다. 저자들은 general instruction following ability가 높아짐에 따라 그 하위 분야인 rewarding 능력도 향상된다고 생각했다.

image


2.2. Fine-Grained Analysis

더 자세히 들여다보면 Self-rewarding model의 장단점을 파악할 수 있다. 먼저, Self-rewarding model은 기존 LLM의 knowledge를 더 잘 활용하는 것이 목적이기에 원래 잘 하지 못하는 수학 또는 논리적 추론 등의 영역에서는 성능이 향상되지 않는 것을 관찰할 수 있었다고 한다.

image

대신 LLM은 조금 더 복잡하고 어려운 task를 수행하는 것에서는 성능 개선이 있었으며, 요구하는 응답 길이가 정해져 있는 경우에 더 응답 길이에 맞는 답변을 생성하는 것을 확인할 수 있었다. 한편 제한 없이 응답을 할 수 있는 경우에는 학습이 반복됨에 따라 더 긴 답변을 생성하는 것을 확인할 수 있었는데, 이는 기존 RLHF에서도 나타나던 현상이다. 이는 길기만 하면 좋은 reward를 주고 좋은 evaluation을 받는 일종의 reward-hacking이 될 수 있기에, 저자들은 이를 본 논문의 Limitation으로 언급하였다.


💡 Summary

Self-Rewarding Language Model은 기존 LLM의 Preference Learning 방식을 확장한 방법론이다. 기존에 reward model이 따로 필요하거나 Human Preference Data를 활용했던 RLHF 및 RLAIF 방식과는 달리, 동일한 모델을 사용하여 (1) Instruction following ability를 높이고, (2) self-rewarding quality를 높이는 방식을 제안하였다. 이를 통해 적은 데이터만으로도 기존 모델들을 뛰어넘는 성능을 보였다. 지금까지 제안되던 RLHF 방식의 틀을 깨뜨리는 논문이기에 앞으로 이 Framework를 활용한 다양한 연구가 이루어질 것 같다. LLM의 진정한 self-training이 가능해져서 superhuman agent가 되는 것도 머지않은 것 같다.


📃 Reference


Language 카테고리 내 다른 글 보러가기

댓글 남기기