LLM의 수학 능력을 10배 더 똑똑하게 만드는 7가지 마법의 단어

요약

LLM의 수학적 추론 능력을 극대화하는 Chain of Thought(CoT) 프롬프팅 기법을 소개합니다. 'Let's think step by step'과 같은 간단한 문구 추가만으로 모델의 정답률을 획기적으로 높이는 방법과 그 원리를 다룹니다.

핵심 포인트

CoT는 모델이 단계별 추론 과정을 거치게 하여 정확도를 높임
Zero-shot CoT: '단계별로 생각하자'는 문구만으로 효과 발생
Few-shot CoT: 예시를 제공하여 추론 깊이를 명시적으로 가이드
Structured CoT: 특정 형식을 강제하여 일관된 출력 유도

🌐 라이브 데모 (LOOK · UNDERSTAND · BUILD): https://dev48v.infy.uk/prompt/day2-chain-of-thought.html

저의 PromptFromZero 시리즈 2일 차입니다 — 50일 동안 50가지의 LLM 기술을 LOOK / UNDERSTAND / BUILD 방식으로 시각화하여 소개합니다.

오늘의 주제: Chain of Thought (CoT, 사고의 사슬). 여러분이 할 수 있는 가장 영향력이 큰 단 한 번의 프롬프트 변경 사항입니다. 비용은 들지 않습니다. 단 7개의 단어만 추가하면 됩니다. 종종 틀린 답을 정답으로 바꿔놓습니다.

설정 (The setup)

동일한 문제. 동일한 모델. 두 개의 프롬프트.

Roger has 5 tennis balls. He buys 2 cans of 3 balls each.
How many balls does he have now?

프롬프트 A — "그냥 답하기 (just answer)"

…질문… Just answer with the number, nothing else.

작고 오래된 모델들은 종종 다음과 같이 답합니다: 8. 틀렸습니다.

프롬프트 B — Chain of Thought (CoT)

…동일한 질문… Let's think step by step.

모델은 다음과 같이 작성합니다:

Roger starts with 5 balls.
He buys 2 cans, each holding 3 balls.
2 × 3 = 6 new balls.
...

정답입니다.

동일한 모델. 동일한 문제. 프롬프트에 단 7개의 단어가 추가되었습니다. 다단계 수학 문제에서의 정확도 향상은 일관되게 엄청납니다.

작동 원리 (Why it works)

LLM은 한 번에 하나의 토큰 (token)을 생성하며, 각 토큰은 이전에 나온 모든 토큰을 조건으로 합니다. 만약 풀이 과정 없이 정답만을 요구한다면, 모델은 전체 계산 과정을 단 하나의 숫자 예측으로 압축해야 합니다.

mkdir cot-from-zero && cd cot-from-zero
npm init -y
npm install ai @ai-sdk/google
...

https://aistudio.google.com/apikey에서 무료 Gemini 키를 받으세요 (신용카드 불필요).

// cot.mjs
import { generateText } from "ai";
import { google } from "@ai-sdk/google";
...

node --env-file=.env cot.mjs

동일한 문제에 대해 동일한 모델을 나란히 두 번 실행한 결과입니다. 차이점이 즉각적으로 눈에 보입니다.

CoT의 단계 (Levels of CoT)

1. Zero-shot CoT (위의 예시)

단순히 "단계별로 생각해 봅시다 (Let's think step by step)."를 추가하기만 하면 됩니다. 대부분의 최신 모델에서 작동합니다.

2. Few-shot CoT

질문 앞에 2~3개의 풀이 예시를 추가합니다:

질문: 사라는 사과 4개를 가지고 있었고 2개를 더 받았습니다. 모두 몇 개인가요?
답변: 사라는 4개를 가지고 있었습니다. 2개를 더 받았습니다. 4 + 2 = 6. 정답: 6.

...

어려운 문제일수록 효과적입니다. 모델이 사용자가 원하는 추론 깊이(reasoning depth)에 대한 명시적인 예시를 갖게 되기 때문입니다.

3. Structured CoT (구조화된 CoT)

특정 형식을 강제합니다:

"이 문제를 푸세요. 단계에 1, 2, 3 번호를 매기세요. 최종 정답은 '정답:'으로 시작하는 새 줄에 작성하세요."

프로그램적으로 파싱(parse)하기가 더 쉽습니다.

4. Hidden CoT (숨겨진 CoT)

추론 사슬(chain)을 생성한 다음, 사용자에게 보여주기 전에 이를 제거합니다:

const reply = result.text;
const clean = reply.replace(/<thinking>[\s\S]*?<\/thinking>/g, '').trim();

사용자는 정답만 보게 되지만, 모델은 정확도 향상의 이점을 얻습니다.

추론 모델(reasoning models)은 어떤가요?

GPT-5, Claude 4 Sonnet, o1, o3, Gemini 2.5와 같은 최신 플래그십 모델들은 추론 능력이 내장된 상태로 학습됩니다. 이들은 "단계별로 생각해 봅시다"라고 말할 필요가 없습니다. 자동으로 수행하기 때문입니다.

하지만 다음과 같은 단점이 있습니다:

토큰당 비용이 10배 더 비쌉니다.
속도가 더 느립니다 (눈에 보이는 "생각 중... (thinking...)" UI).
단순한 작업에는 과합니다 (overkill).

저렴한 모델 + CoT 프롬프트 ≈ 추론 모델의 출력, 비용은 약 10% 수준입니다. CoT는 여전히 소형 모델에서 사용할 수 있는 가장 레버리지가 높은(highest-leverage) 기술입니다.

이것이 가능하게 하는 것

CoT는 기초입니다. 모든 더 정교한 추론 기술은 이 기초 위에서 구축됩니다:

Self-consistency (자기 일관성) — N개의 CoT 샘플을 추출하여 다수결(majority vote)을 채택
ReAct — CoT와 도구 호출(tool calls)을 교차 실행 (Day 1)
Tree of Thoughts (사고의 트리) — CoT를 여러 경로로 분기하고 평가
Reflection (성찰) — 결과물을 생성하고, 스스로의 출력을 비판한 뒤, 다시 생성

먼저 CoT를 마스터하세요. 나머지는 모두 그 변형일 뿐입니다.

지금 바로 시도해보세요

한 페이지 내에 세 개의 탭이 있습니다:
https://dev48v.infy.uk/prompt/day2-chain-of-thought.html

LOOK (보기) — 두 프롬프트의 애니메이션 병렬 추적(side-by-side trace)
UNDERSTAND (이해하기) — CoT가 작동하는 이유에 대한 8단계 클릭 스루(click-through) 설명
BUILD (구축하기) — 코드를 복사하여 자신의 환경에서 실행

PromptFromZero의 다음 단계

Day 3: Self-consistency (자기 일관성). 5개의 CoT 실행 샘플을 추출하여 다수결을 채택합니다. 동일한 모델로 훨씬 더 높은 정확도를 얻을 수 있습니다.

시리즈: 50가지 LLM 기술 · 50일간의 여정 · 전 과정에 Vercel AI SDK 사용.

🌐 모든 기술 보기: https://dev48v.infy.uk/promptfromzero.php

AI 자동 생성 콘텐츠

원문 바로가기