[23’ ACL] Contrastive Decoding: Open-ended Text Generation as Optimization

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

ACL 2023에서 발표된 논문으로, 해당 논문에서는 새로운 Decoding 방식인 Contrastive Decoding(CD)를 제안한다. CD는 기존의 Greedy Search, Beam Search, Top-k Sampling, Nucleus Sampling 등과 달리 contrastive objective로 Decoding을 진행한다. 이때 저자들은 특별한 constraint인 APC(Adaptive Plausibility Constraint)를 제안하여, CD가 더욱 효과적으로 작동하도록 하였다. 이러한 CD는 Open-ended Text Generation에서 다른 Decoding 방식에 비해 효과적인 성능을 보여주었다.


1. Methods

1.1. Contrastive Objective

저자들은 Contrastive Decoding(CD)에서 두 가지 LLM, 즉 expert LMamateur LM을 사용한다. Expert LM은 높은 성능을 보이는 LLM이고, Amateur LM은 성능이 낮은 LLM이다. 이때 CD는 expert LM에서 높게 예측한 token에 높은 비중을 주고, amateur LM에서 높게 예측한 token에 낮은 비중을 주어 contrastive objective를 최적화한다. 즉, amateur LM이 예측한 token은 보통 잘못된 token이므로 이를 penalize하여 좋은 응답을 얻도록 한다는 것이다.

image


1.2. Adaptive Plausibility Constraint

그러나 여기에는 한 가지 문제가 있다. 일부 토큰의 경우 amateur LM도 높은 확률로 예측할 수 있기 때문에, 만약 이러한 token을 penalize한다면 이상한 token의 비중이 올라가는 False Positive 문제가 생긴다. 반대로 제대로 생성되어야 하는 token의 비중이 낮아지는 False Negative 문제도 생긴다. 따라서 저자들은 Adaptive Plausibility Constraint(APC)를 제안하여 이러한 문제를 해결한다. APC는 기존 expert LM에서 일정 probability 이상으로 예측한 token에 대해서만 CD를 적용한다는 것이다. 이를 통해 False Positive와 False Negative 문제를 해결하고, CD의 성능을 향상시킨다. 저자들은 cutoff로 $\alpha = 0.1$을 사용하였다.

image


1.3. Full Method

전체 알고리즘을 정리하면 다음과 같다.

image image


1.4. Choice of Amateur

저자들은 Amateur LM으로 3가지 옵션을 사용하였다. Expert LM보다 나쁜 LM을 만들어야 하는데, 크게 세 가지 축에서 나쁜 성능을 보이는 LM을 사용하였다.

  1. Scale: Expert LM보다 작은 모델을 사용한다.
  2. Temperature: Expert LM보다 높은 temperature를 사용한다.
  3. Context Window: Autoregressive Decoding 시 바로 직전 token에만 의존하도록 한다. 즉, $\log \frac{p_ {\text{EXP}} (x_ \text{cont} \vert x_ {1:n})}{p_ {\text{AMA}} (x_ \text{cont} \vert x_ {n})}$으로부터 decoding한다.


2. Results

2.1. Main Results

image

저자들은 CD가 다른 Decoding 방식에 비해 더 좋은 성능을 보인다는 것을 실험을 통해 보였다. 이외에도 Human Evaluation도 있지만 생략한다.


2.2. Ablation Study

저자들은 Amatuer LM으로 3가지 옵션 (1) Scale, (2) Temperature, (3) Context Window을 사용하였기에, 각각에 대한 Ablation Study를 진행하였다.

Scale

image

Scale의 경우, Expert LM과 Amateur LM 사이의 성능 차이가 클수록 성능이 좋았다. 이는 Contrastive Decoding을 위해 서로 차이가 큰 모델을 사용해야 한다는 점을 시사한다. 단, Amateur LM이 Uniform Distribution이 되면 Contrastive Decoding은 의미를 잃어버린다. 따라서 Amateur LM은 확연히 biased model이어야 한다.

Temperature

image

Temperature의 경우 $\tau$가 매우 커지면 uniform distribution에 가까워지면서 의미를 잃어버린다. 따라서 오히려 temperature가 커짐에 따라 diversity가 떨어진다. 그러나, $\tau$가 너무 작으면 contrastive하지 않으면서 성능이 저하된다. 따라서 적절한 정도의 temperature인 $\tau = [0.5, 1.0]$을 사용하였다.

Context Window

image

Context Window의 경우에도 효과가 있었으나 coherence와 fluency가 약간 떨어지는 것으로 나타났다.


2.3. Adaptive Plausibility Constraints

image

마지막으로, Adaptive Plausibility Constraints의 존재 여부가 얼마나 중요한지 확인하기 위해 APC 없는 경우와 비교하였다. 그 결과, Plausibility Constraints 없이는 성능이 급격히 저하되었다. 이는 APC가 False Positive, False Negative를 아주 효과적으로 줄여준다는 것을 알려준다.


💡 Summary

Contrastive Decoding 논문의 내용을 요약하면 다음과 같다.

  • Expert LM과 Amateur LM의 Logit을 비교하여 Decoding하는 Contrastive Decoding이라는 새로운 방식을 제안하였고, 이는 다른 Decoding 방식보다 훨씬 효과적임
  • False Negative, False Positive를 줄이기 위해 High Probability Token에 대해서만 Decoding을 진행하는 APC(Adaptive Plausibility Constraints)를 도입하였고, 이는 성능에 굉장히 중요함


📃 Reference


Language 카테고리 내 다른 글 보러가기

댓글 남기기