[22’ NIPS] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Date: 2024.06.19 Updated: 2024.06.19

카테고리: Language

🔍 Abstract

LLM에서 In-context Learning은 굉장히 중요한 주제이다. In-context Learning은 LLM이 문맥을 이해하여 적절한 답변을 생성하는 능력을 의미하며, pre-training에 거대 데이터가 사용되며 생긴 LLM의 창발성(emergence)로 볼 수 있다. 이 논문은 ICL이 아닌 새로운 창발성, Chain-of-Thought(CoT)를 처음 제안한 논문이다. CoT는 Reasoning을 유도하는 방법으로, Prompt를 통해 Reasoning chain을 생성하고, 이를 통해 LLM이 Reasoning을 수행하도록 유도한다. 이러한 방법으로 놀라운 성능 향상을 보였고, 이는 Fine-tuning이 이루어진 GPT-3보다 우수했다.

1. Chain-of-Thought Prompting

1.1. Method

기존에도 CoT와 방법론적으로, 혹은 접근 방식에서 유사한 방법론들이 있었다. 논문에서는 이를 크게 Rationale-augmented training과 Few-shot prompting으로 나눈다.

Rationale-augmented training: 이 방법은 Training 시 Rationale를 포함하여 학습시키는 방법이다. 이러한 방법은 High-quality Rationale를 학습 데이터만큼 생성해야 하기에 비용이 많이 든다는 점이 한계점이다.
Few-shot prompting: 이 방법은 기존의 In-context Learning 방법인데, 따로 데이터를 학습시키지 않고 Prompting만으로 성능을 개선했다는 데 의의가 있다. 그러나 이러한 Few-shot 방법을 적용하더라도 Reasoning ability가 낮다는 한계점이 있다.

따라서, 본 논문에서는 이 두 방법의 장점을 살린 Chain-of-Thought Prompting을 제안한다. 기존의 Few-shot prompting 방법은 <Input, Output> 쌍을 Few-shot으로 주었지만, CoT는 Rationale-augmented training의 장점을 따라 Input과 Output 사이의 답을 도출하는 과정을 포함하여 <Input, Chain of Thought, Output> 쌍을 Few-shot으로 준다. 이때 데이터는 Human Annotator가 작성한다. 필요로 하는 Test set에 대해서만 Annotation을 달면 되기에 Rationale-augmented training보다 비용이 적게 든다. 예시는 다음과 같다.

1.2. Advantages

CoT는 위에서 말한 접근 방법 이외에도 다음과 같은 장점을 가진다.

Boosted Reasoning. CoT는 LLM이 복잡한 문제를 잘게 잘라 Managable step 여러 개로 나누고, 이들을 연결하여 Reasoning을 수행하도록 유도한다. 이러한 방법으로 기존에는 LLM이 한 번에 풀기 어려웠던 문제들을 해결하도록 도와준다.
Offering Interpretability. CoT는 LLM이 어떠한 Reasoning을 수행했는지를 알 수 있도록 해주기에 해석 가능성을 높인다.

2. Experiments

저자들은 크게 (1) Arithmetic Reasoning, (2) Commonsense Reasoning, (3) Symbolic Reasoning에 대한 실험을 진행했다. 여기서는 이를 모두 종합하여 특별히 주목해볼 만한 부분을 발췌하여 정리하였다.

2.1. Scaling Law of CoT

CoT의 성능은 LLM의 성능, 결국 LLM의 Scale에 따라 크게 달라진다. 작은 모델에서는 Standard Prompting보다 CoT Prompting의 결과가 더 나쁜데, 이는 ilogical reasoning을 수행할 가능성이 더 높기 때문이다. 실제로 Smale LLM이 틀린 부분은 크게 2가지였는데, (1) CoT는 거의 맞았지만, 사소한 실수(Calculator Error, Symbol Mapping Error, Reasoning Step Missing)로 인해 틀린 경우 46%, (2) 중요한 실수를 한 경우 54%였다. 그러나 결국 LLM의 Scale이 커지면 이러한 문제들은 쉽게 해결된다. 그리고 복잡한 문제일수록 CoT의 성능 개선이 더 뚜렷했다.

Scaling Law. CoT는 LLM의 emergent ability로, LLM의 Scale이 커질수록 CoT의 성능이 더 뚜렷하게 나타난다.

2.2. Robustness of CoT

다음으로 저자들은 Robustness를 측정했다. 기본적으로 Chain-of-Thought Few-shot example을 Human Annotator가 작성하는 것이기에, Annotator에 따라 성능이 천차만별일 수 있다. 그러나 저자들은 Annotator의 차이가 크게 영향을 미치지 않는다는 것을 실험을 통해 확인했다. Reasoning이 가능한 타당한 CoT Few-shot example을 작성한다면, 큰 차이 없이 성능을 유지할 수 있다는 것이다. 그 외에도 Example을 어떤 것을 사용하는지, LLM을 어떤 것을 사용하는지에 상관없이 CoT는 Reasoning을 유도하는 데 효과적이었다.

Robustness. CoT는 Annotator, Example, LLM에 상관없이 Reasoning을 유도하는 데 효과적이다.

2.3. Generalizability of CoT

다음으로 저자들은 OOD(Out-of-Distribution) Generalization을 확인했다. 예를 들어 위의 동전 던지기(Coin Flip)의 경우, Few-shot 예시로는 동전을 단 2회 던졌을 때 결과를 예측하는 예시들만 제시한다. 그러나 실제 문제는 동전을 4회 던졌을 때의 결과를 예측하는 것이다. 이러한 OOD 문제에서 일반적인 LLM Prompting은 성능이 떨어지는 반면, CoT는 Reasoning을 통해 결과를 예측하기에 높은 성능을 보였다. 참고로 여기서 사용한 “Letter Concat”과 “Coin Flip”은 아래 예시를 참고하자.

Generalizability. CoT는 OOD 문제에서도 높은 성능을 보인다.

2.4. Limitation

그러나, 이렇게 성능이 뛰어난 CoT에도 여러 한계가 있다. 저자들은 크게 세 가지의 한계점을 지적했다. 먼저, (1) 실제로 LLM이 “Reasoning”을 수행하는지는 알 수 없다. 두 번째로, (2) 만약 이러한 방식으로 Prompting을 하는 것이 아니라 Fine-tuning을 진행한다면, 높은 비용이 들 것이다. 마지막으로, (3) CoT를 통해 실제로 옳은 방식으로 Reasoning을 수행하는 것을 보장할 수 없다.

💡 Summary

지금까지의 내용을 요약하면 다음과 같다.

Chain-of-Thought Prompting은 Reasoning을 유도하는 방법론으로, Few-shot prompting과 Rationale-augmented training의 장점을 살린다. 추가로, CoT는 Boosted Reasoning과 Offering Interpretability의 장점을 가진다.
CoT의 특성을 다음과 같이 정리할 수 있다.
1. Scaling Law: LLM의 Scale이 커질수록 CoT의 성능이 더 뚜렷하게 나타난다.
2. Robustness: Annotator, Example, LLM에 상관없이 Reasoning을 유도하는 데 효과적이다.
3. Generalizability: OOD 문제에서도 높은 성능을 보인다.

그렇다면 언제 CoT를 사용하는 것이 효과적일까? 저자들은 다음 3가지 조건을 만족해야 한다고 한다. (1) Task가 Multi-step reasoning을 요구하는 challenging한 task여야 하고, (2) LLM을 사용할 수 있어야 하며, (3) scaling curve가 상대적으로 flat하여 일반적인 LLM으로도 emergent ability가 발현될 수 있어야 한다. 하지만, 이러한 방식은 결국 Human Annotator의 도움을 받아야 한다는 문제가 있다. 이러한 방식을 해결하기 위해 Automated CoT 방식이 제안되었는데, 이 초창기 연구에 대한 논문은 다음에 소개하도록 하겠다.

📃 Reference

[22’ NIPS] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

I'm rubatoyeong