LLM 프롬프트와 변수 취급 방식의 변화 — 4년간의 역사 회고 - Insights | Molayo

TL;DR

LLM 프롬프트의 형태는 reasoning model (추론 모델)의 등장으로 지난 4년간 근본적으로 변했다. "step by step으로 생각해", "temperature를 낮춰 재현성을 확보해"와 같은 2022~2024년형 템플릿은, 현재의 reasoning model 계열(GPT-5 Thinking, Claude의 adaptive/extended thinking, DeepSeek R 시리즈, gpt-realtime 등)에는 통용되지 않거나 API 레벨에서 다룰 수 없게 되었다. 배경: CoT (2022) → ToT/GoT (2023-2024)로 이어지며 "외부 프롬프트로 추론을 끌어내는" 기법이 축적된 후, 2024-2025년의 reasoning model(o1, R1, Claude reasoning 등이 시초)이 **이를 RL (강화학습)을 통해 훈련 단계에서 internalize (내재화)**했다. 결과적으로 외부에서 조작할 수 있는 surface(프롬프트의 세세한 절차 지시, sampling 파라미터)가 일제히 사라졌다. 결론은 세 가지다: (1) 프롬프트는 "선언형 (목적과 제약만 명시)"이 더 좋아졌고, (2) temperature 등의 sampling 파라미터는 고정되거나 API에서 삭제되었으며, (3) 대신 reasoning_effort와 같은 reasoning 전용 knob (조절 장치)가 노출되었다. 경량 모델이나 thinking이 얕은 모드(GPT-5 Instant, Haiku 등)에는 기존의 prompt engineering (프롬프트 공학)이 여전히 유효하다. 다만 2026년 현재, Claude 4 계열의 adaptive thinking처럼 "모델이 thinking 깊이를 동적으로 결정하는" 모드가 확산되면서, reasoning / non-reasoning의 이분법은 연속적인 스펙트럼으로 이행하고 있다. 그럼에도 양 극단에서는 프롬프트 전략의 차이가 현저하므로, 구분하여 사용하는 것은 여전히 필수적이다.

출발점: CoT는 "프롬프트 기법으로 reasoning을 끌어낼 수 있다"는 발견이었다

Wei et al. (2022)은 few-shot prompting (퓨샷 프롬프팅)의 exemplar (예시)에 "중간 계산 과정"을 포함하는 것만으로, 540B 모델이 GSM8K에서 파인튜닝된 GPT-3 + verifier (검증기)를 능가함을 보여주었다.

포인트는 모델을 다시 훈련시킨 것이 아니라는 점이다. 동일한 모델에 대해 prompt (프롬프트)를 바꾸는 것만으로 reasoning (추론)을 끌어낼 수 있었다. 이는 당시 매우 충격적이었으며, "reasoning은 훈련의 문제가 아니라, 끌어내는 방법의 문제다"라는 방향으로 약 2년 동안 연구가 진행되었다.

확장: 오케스트레이터가 사고 구조를 담당하는 ToT / GoT

CoT가 "선형적인 체인"을 끌어낸다면, 다음은 "분기"와 "집약"을 끌어낼 수 있어야 한다는 방향으로 발전한다.

Tree-of-Thought (Yao et al., NeurIPS 2023)는 단 한 번의 forward pass (순전파)로 결론에 도달하는 것이 아니라, 여러 thought (사고)를 분기시키고, 평가 함수로 선별하며, 필요하다면 backtrack (역추적)하는 **tree search (트리 탐색)**를 도입했다. Game of 24에서 CoT 4% → ToT 74% (GPT-4).

Graph-of-Thought (Besta et al., AAAI 2024)는 이를 임의의 그래프로 확장했다. 노드는 thought, 에지는 의존성을 나타낸다. 여러 thought의 집약이나 피드백 루프를 통한 refine (정제) 등 그래프 조작을 도입했다. 정렬 태스크에서 ToT 대비 +62% 성능 향상 / 비용 -31% 감소.

CoT/ToT/GoT는 동일한 계층에 있다. 단 한 번의 추론 내에서, 토큰 공간에 쓰여진 사고 단계(thought steps)를 선형/트리/그래프 중 어떤 구조로 다룰 것인가의 차이다. 중요한 점은 이것들이 "LLM 자체는 바꾸지 않고, 외부의 오케스트레이터로 사고 구조를 만든다"는 접근 방식이었다는 것이다.

여기서 중요한 분기점이 존재한다. CoT를 기점으로, (1) ToT/GoT는 자연어 공간에 사고를 써 내려간 상태로 구조화하는 방향으로 나아갔다. (2) Latent reasoning (잠재 추론, Abstract CoT 계열)은 애초에 사고를 언어로 내뱉지 않고, 잠재 벡터 공간(latent vector space)에서 수행하는 방향으로 기울었다. 같은 CoT의 후손이지만, 사고의 매체가 다르다.

통합: reasoning model의 등장으로 훈련 단계에 내장됨

2024년 후반부터 reasoning model (추론 모델)이라 불리는 계통이 등장한다. OpenAI o1, DeepSeek R1, Claude reasoning 모드, Gemini Thinking 등 (이들은 현재 각각 GPT-5 Thinking, DeepSeek R 계열의 지속 버전, Claude 4 계열의 adaptive thinking, Gemini Thinking의 지속 버전으로 발전하여, reasoning (추론)이 표준 모델에 통합되었다).

이들은 무엇을 했는가. CoT/ToT/GoT가 "프롬프트로 끌어냈던" reasoning (추론)을, RL (강화학습) 훈련 단계에서 internalize (내재화)했다. 모델 자체가 "생각해야 할 때 길게 생각하기", "도중에 분기하여 평가하기", "자신의 출력을 refine (정제)하기"를 훈련된 동작으로서 갖게 되었다.

결과적으로 실무적으로는 다음과 같은 일이 일어났다:

CoT exemplar (예시)가 필요 없게 되었다. reasoning model에 문제를 던지면, prompt (프롬프트)에 "step by step"이라고 쓰지 않아도 알아서 긴 사고열을 생성한다. few-shot으로 reasoning의 본보기를 보여줄 필요가 사라졌다 -
ToT/GoT의 명시적인 orchestration (오케스트레이션) 구현 동기가 약해졌다. 복잡한 태스크에 대해 LangGraph로 직접 분기·평가·refine을 작성하는 것보다, reasoning model에 통째로 맡기는 것이 결과가 더 좋은 케이스가 늘어났다

즉, CoT/ToT/GoT는 "죽은" 것이 아니라, LLM의 내부로 흡수되었다. 아키텍처로서의 이름은 연구 문맥에 남겠지만, 구현 패턴으로서는 reasoning model 안에 숨겨졌다.

현재 살아있는 영역

reasoning model에 모든 것이 흡수된 것은 아니다. 다음 세 가지는 여전히 액티브 (active)하다.

영역	하는 일	reasoning model과의 관계	대표적인 연구·구현
Latent reasoning (Abstract CoT 계열)	사고를 언어 밖(잠재 벡터 공간)에서 수행	reasoning model은 지금도 "자연어로 사고"한다. 그 제약을 넘어서려는 계통	Coconut, Quiet-STaR
Memory / World Model	추론 외부에 있는 영구 상태. session (세션)을 넘어 문맥을 유지	reasoning model이 아무리 똑똑해져도, 영구화는 별도로 필요한 독립 레이어	MemGPT, Zep/Graphiti, World Models (Ha & Schmidhuber)
Agent orchestration	여러 LLM 호출과 side effect (부수 효과)의 흐름을 기술	ToT/GoT의 "그래프적으로 구성하는" 정신을 계승한 framework (프레임워크)로 남음	LangGraph 등

보충:

Latent reasoning은 연구로서는 활발하지만 프로덕션(production)에는 도달하지 못했다. reasoning model의 효율 개선이 한계에 부딪혔을 때의 다음 방향으로서 주목받고 있다 -
Memory 계열은 프로덕션화가 진행 중이다. 에이전트를 장기 운용하려면 반드시 설계 대상이 된다 -
Agent orchestration은 "LLM에게 reasoning을 시키는" 틀이라기보다 "LLM 호출과 side effect의 orchestration" 틀로 역할이 바뀌고 있다

무엇이 사라지고 무엇이 남았는가

2022~2024년의 화제	2026년의 상황
Chain-of-Thought prompting의 exemplar 설계	거의 사라졌다. reasoning model이 알아서 내놓는다
...

귀결: 외부에서 만질 수 있는 control surface (제어 표면)가 일제히 줄어듦

reasoning이 훈련 단계에 통합된 결과, 외부에서 LLM의 동작을 제어하는 surface (표면)가, prompt (프롬프트)와 추론 파라미터 양쪽 모두에서 줄어들고 있다. 같은 구조가 다른 레이어에 나타나고 있으므로, 나란히 놓고 보면 이해하기 쉽다.

prompt 전략의 이분

관점	reasoning model	non-reasoning model
기본 스타일	선언형 (목적과 제약)	흐름형 (절차를 명시)
...

reasoning model에 대해서는, 선언형 (목적과 제약만 제시하고 풀이 방식은 맡기는 방식)이 좋다. OpenAI의 reasoning model용 가이드(o 시리즈부터 현재의 GPT-5 Thinking까지 일관됨)는 "Keep prompts simple and direct", "Avoid chain-of-thought prompts", "Limit additional context in RAG"를 명시하고 있다. Anthropic의 extended/adaptive thinking 가이드라인도 거의 유사하여, "step by step으로 생각하라"나 "사고를 분해하라"와 같은 지시는 불필요하며, 경우에 따라서는 reasoning model 자신의 탐색을 제약하여 성능을 떨어뜨릴 수 있다. few-shot CoT exemplar 또한 같은 이유로 역효과를 낼 수 있다.

반대로 경량 모델이나 사고(thinking)가 얕게 돌아가는 모드(GPT-5 Instant, Haiku 등)에 대해서는, **기존 방식의 흐름형 (flow-type)**이 여전히 가장 강력하다. 절차의 명시, CoT exemplar, 출력 포맷 지시 모두 효과가 있다. 2022~2024년에 축적된 프롬프트 엔지니어링 (prompt engineering) 지식은 이 계통에서는 여전히 현역이다.

실무적으로 어떤 일이 벌어지는가. 동일한 프로덕트에서 두 계통의 모델을 나누어 사용한다면, 프롬프트 (prompt) 작성 방식 자체를 구분하여 사용해야 한다. "일단 step-by-step으로 생각하게 한다"를 기본 템플릿으로 삼으면, reasoning model 측에서는 성능이 나오지 않는다.

참고로 2026년 현재, Claude 4 계열의 adaptive thinking처럼 "모델이 사고(thinking)의 깊이를 동적으로 결정하는" 모드가 보급되면서, reasoning / non-reasoning의 이분법은 연속적인 스펙트럼으로 이행하고 있다. 그럼에도 양 극단에서는 프롬프트 전략의 차이가 현저하므로, 본 절의 정리는 기본 축으로서 유효하다.

추론 파라미터도 다뤄지며, 다른 노브(knob)로 대체됨

프롬프트와 병행하여, 샘플링 (sampling) 파라미터 또한 reasoning model에서는 받아들여지지 않고 있다.

파라미터	구형 (non-reasoning model)	신형 (reasoning model)	변화
`temperature`	0~2 사이 자유	고정 (1) 또는 API에서 삭제	제거
`top_p`	0~1 사이 자유	고정 (1)	제거
`presence_penalty` / `frequency_penalty`	자유	고정 (0)	제거
`reasoning_effort`	존재하지 않음	low / medium / high	신규 노출
`thinking_budget` 계열	존재하지 않음	Claude 등에서 노출	신규 노출

OpenAI의 reasoning 계열(o 시리즈부터 현재의 GPT-5 Thinking까지), Claude의 thinking 활성화 시, 그리고 gpt-realtime (Realtime API GA에서 사용되는 모델)은 모두 위의 제한을 가진다. Realtime API는 beta에서 GA로 올라갈 때 temperature가 API에서 삭제되었다.

이유는 기술적으로 명확하다. reasoning model의 내부 생성은 멀티 스테이지 (multi-stage) (생성 → 검증 → 선택을 내부에서 여러 번 반복) 구조로 되어 있으며, 외부에서 temperature를 조절하면 그 멀티 패스 (multi-pass)의 캘리브레이션 (calibration)이 무너진다. 극단적인 예로 temperature=0을 지정하면, 본래 여러 번 실행되어야 할 reasoning path가 하나의 탐욕적 경로 (greedy path)로 뭉개져서, 추론(reasoning) 자체가 성립되지 않는다. OpenAI 스스로도 "multi-stage inference의 calibration을 유지하기 위해"를 이유로 설명하고 있다.

대신 등장한 reasoning_effort

는, sampling (샘플링) 분포를 조정하는 것이 아니라 reasoning (추론) 자체의 깊이를 제어하는 별도의 레이어(layer)의 control (제어). '외부에서 확률 분포를 조정하는 것'에서 '외부에서 사고 예산(thinking budget)을 전달하는 것'으로, 제어의 추상도가 한 단계 높아졌다.

공통된 구조

prompt (절차 지정)도, sampling param (확률 분포 조정)도, 둘 다 2022~2024년형 prompt engineering (프롬프트 엔지니어링)이 의존하던 **외부 control surface (제어 표면)**였다. reasoning model (추론 모델) 시대에서는, 이것들이 'reasoning의 calibration (보정)을 무너뜨린다' 또는 '불필요하다'는 이유로 API 레벨에서 제외되는 방향으로 움직이고 있다. 대신 reasoning 고유의 knob (노브, 조절 장치) (예: reasoning_effort 등)가 노출된다.

항목	reasoning model	non-reasoning model
prompt의 절차 지정	제외됨 / 역효과	유효
...

이는 '제어할 수 없게 되었다'는 불편함이기도 하며, 'reasoning model 측에서 적절하게 calibrate (보정)해 준다'는 개선이기도 하다. 어느 측면이 부각될지는 용도에 따라 다르다. 결정론적인(deterministic) 동작이 필요한 의료·법무 분야에서는 문제시되지만, 일반적인 assistant (어시스턴트) 용도에서는 오히려 welcome (환영)한다는 것이 현재의 온도감이다.

중기적 전망: 이 이분법 자체가 흡수됨

'reasoning model 여부'라는 축 자체는, adaptive thinking (적응형 사고)의 보급으로 중기적(2027~2028년)에는 진부해질 것으로 보고 있다.

시기	모델의 정리	prompt 전략의 축
~2024	단일 계통 (프롬프트 기교로 reasoning을 이끌어냄)	플로우(flow)형 일변도
...

'reasoning을 할 것인가 말 것인가'가 모델 선택에서 effort (노력/공수)의 다이얼로 대체되기 때문에, 별도의 family (제품군)를 준비할 이유가 희박해진다. Claude 4 계열의 adaptive thinking, GPT-5 Instant와 Thinking의 동일 family화는 이미 이 방향을 향하고 있다.

다만 유스케이스 (use case)는 불멸하며, 'reasoning effort=0인 모드'로서 형태를 바꾸어 남게 된다:

유스케이스	남는 이유
실시간 계열 (음성 대화, autocomplete, 스트리밍 자막)	thinking (사고)을 넣는 순간 latency (지연 시간)가 치명적임
...

따라서 본 기사의 prompt 전략 이분법은 2026-05 시점의 스냅샷이며, 'reasoning model일 때는 이렇게 작성한다'가 아니라, 장기적으로는 'effort high일 때는 이렇게, effort low일 때는 이렇게'로 읽어내는 것이 정확하다.

2026년에 reasoning에 대해 이야기한다면

'LLM의 reasoning'을 논의할 때 살펴봐야 할 논점은 4년 전과 완전히 다르다.

어떤 reasoning model을 선택할 것인가: latency (지연 시간), cost (비용), 신뢰성, 사고 길이 제어, tool calling (도구 호출)과의 상성 -
memory (메모리) 층을 어떻게 설계할 것인가: vector / graph / hybrid, 영속성, entity resolution (개체 식별), 시계열 관리 -
agent orchestration (에이전트 오케스트레이션) 패턴: 어디를 reasoning model에 맡기고, 어디를 명시적인 제어 플로우로 만들 것인가, 재시도·분기·human-in-the-loop (인간 참여형) 구성 방식 -
Long context (긴 컨텍스트) vs RAG vs memory의 트레이드오프 (trade-off): context window (컨텍스트 창)가 1M 이상으로 늘어난 지금, retrieval (검색)과 memory의 경계는 어디에 그을 것인가

CoT/ToT/GoT는 배경지식으로서 알아둘 가치는 있지만, 그것 자체를 비교하는 것만으로는 2026년의 구현 판단으로 이어지지 않는다. 본 기사는 그 배경지식을 정리해 두는 위치에 있다.

요약

CoT (2022)는 "프롬프트 기법을 통해 추론 (reasoning)을 이끌어낼 수 있다"는 발견. ToT/GoT (2023-2024)는 이를 분기 및 그래프 구조로 확장
2024-2025년의 추론 모델 (reasoning model)은 CoT/ToT/GoT를 **RL (강화학습)을 통해 훈련 단계에서 내재화 (internalize)**했다. 그 결과, 프롬프트 공학 (prompt engineering)으로서의 CoT/ToT/GoT는 실무적으로 거의 사라졌다. 남은 것은 잠재적 추론 (Latent reasoning, 연구 분야), 메모리 (Memory) / 월드 모델 (World Model, 별도 레이어), 에이전트 오케스트레이션 (agent orchestration, 프레임워크 형태로 변화)
결론적으로 외부에서 접할 수 있는 제어 표면 (control surface)이 일제히 축소되었다: 프롬프트는 선언형 (declarative)으로 기울고, temperature 등의 샘플링 (sampling) 파라미터는 API 레벨에서 제거되었으며, 대신 reasoning_effort와 같은 추론 전용 노브 (knob)가 노출되었다. 2026년에 추론을 논한다면 CoT/ToT/GoT의 비교가 아니라, 추론 모델의 선택, 메모리 설계, 오케스트레이션 패턴, 모델 계통에 따른 프롬프트 및 제어 표면의 활용법이 논점이 될 것이다.
단, "추론 모델 (reasoning model) vs 비추론 모델 (non-reasoning model)"이라는 이분법 자체는 적응형 사고 (adaptive thinking)의 보급으로 인해 중기적 (2027~2028년)으로는 흡수될 전망이다. 본 기사의 이분법적 축은 2026-05 시점의 스냅샷이며, 향후에는 "노력 (effort) 축에 따른 연속적인 활용"으로 재편될 것이다.

참고 문헌

Wei et al., 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arxiv:2201.11903
Yao et al., NeurIPS 2023. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arxiv:2305.10601
Besta et al., AAAI 2024. Graph of Thoughts: Solving Elaborate Problems with Large Language Models. arxiv:2308.09687
Hao et al., 2024. Training Large Language Models to Reason in a Continuous Latent Space (Coconut). arxiv:2412.06769
Zelikman et al., 2024. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking. arxiv:2403.09629
Ha & Schmidhuber, 2018. World Models. arxiv:1803.10122
Packer et al., 2023. MemGPT: Towards LLMs as Operating Systems. arxiv:2310.08560
Rasmussen et al., 2025. Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arxiv:2501.13956

LLM 프롬프트와 변수 취급 방식의 변화 — 4년간의 역사 회고

요약

핵심 포인트