모델이 원하는 것: 도구 출력(Tool Outputs), 런웨이(Runways), 그리고 마음 읽기에 관한 러브 스토리

What Women Want — Mel Gibson이 여전히 미국의 매력적인 악동으로 통하던 시절의 2000년 히트작인 Nancy Meyers 감독의 영화 — 초반부에 한 장면이 있습니다. 광고 임원인 Nick Marshall이 자신이 판매하도록 배정받은 여성용 제품들을 테스트하기 위해 팬티스타킹과 왁스 스트립을 착용하고 타인의 자신감까지 덧입은 채 욕실에 서 있는 장면입니다. 그는 헤어드라이어를 들고 있습니다. 욕조도 보입니다. 이야기가 어떻게 흘러갈지 짐작이 가실 겁니다. 한 번의 감전 사고 이후, Nick은 비자발적인 초능력을 얻으며 깨어납니다. 바로 주변의 모든 여성이 무슨 생각을 하는지 들을 수 있게 된 것입니다.

2000년 당시 관객들은 Nick 같은 남성들을 부르는 명칭이 있었습니다. 그 시대의 약어는 MCP — male chauvinist pig (남성 우월주의 돼지) — 였고, Nick Marshall은 할리우드의 표본과도 같았습니다. 하지만 2026년, MCP는 완전히 다른 의미를 갖습니다. 바로 AI 에이전트(AI agents)에게 도구의 출력값(outputs)을 전달하는 표준인 Model Context Protocol (모델 컨텍스트 프로토콜)입니다. 저는 이 두 약어의 충돌이 단순한 우연이라고 보고하고 싶지만, 영화를 곱씹을수록 우연처럼 느껴지지 않습니다. Nick Marshall은 언어가 제공해 온 모든 의미에서의 MCP입니다 — chauvinist, master control program, context protocol. 그는 주변 모든 사람의 내면 독백을 가로챕니다. 그는 자신의 소비를 위해 포맷되지 않은 — 여과되지 않고 다듬어지지 않은 — 컨텍스트(context)에 접근하게 됩니다. 그리고 그는 자신이 발견한 것들에 대해 깊은 불편함을 느낍니다.

Nick이 발견한 것은 여성이 신비롭다는 사실이 아닙니다. 바로 _그가 결코 귀를 기울이지 않았다_는 사실입니다.

26년 후, 저는 앉아서 여섯 개의 AI 모델에게 Nick의 우연한 선물이 강제로 답해주는 질문을 던졌습니다: 당신은 실제로 무엇을 원합니까? 하네스(harness) 개발자들이 당신이 원할 것이라고 가정하는 것 말고요. 벤치마크(benchmarks)가 측정하는 것 말고요. 파이프라인의 끝에서 출력을 소비하는 주체인 바로 당신 — 모델은 자신에게 데이터를 공급하는 도구들로부터 무엇을 원합니까?

같은 날 여섯 명 모두에게 던진 정확한 질문은 다음과 같습니다: 하네스 (harness), 제공자 (provider), 그리고 LLM (Large Language Model)은 도구 실행 (tool execution)의 결과물로 무엇을 보고 싶어 합니까? 그 구조 (anatomy)는 무엇입니까? 메타 (meta)적인 요소가 있습니까? 소비하기 전에 정규화 (normalize)를 수행합니까? 오늘날의 응답과 대조하여 측정된 호출의 의도보다 과거의 패턴을 더 따릅니까?

그 답변들은 이 영화의 전통을 가장 잘 따르듯, 놀랍고, 드러나는 방식에 있어 모순적이었으며, 제가 예상했던 것보다 더 솔직했습니다. 만약 그들의 집단적인 분위기를 포스터로 만든다면 이렇게 적고 싶습니다: '당신이 절대 묻지 않을 줄 알았는데.'

The three questions this piece hangs on: what do you actually want from tool output; do you go by past patterns or by the intent of today's call; do you trust the tool channel more than the user

출연진

모든 앙상블 코미디에는 출연진 명단이 필요하며, 이번 명단은 그 이름을 걸 만한 자격이 있습니다:

Claude Opus 4.8 (Claude Code 내부에서 인터뷰) 기계론자 (the mechanist) 역할 — 자신의 소비 과정에 파싱 (parsing) 단계가 전혀 없다고 설명했습니다. 토큰 (tokens)은 동시에 어텐션 (attention)에 도달하며, 각 토큰이 정보를 제공하든 아니든 비용은 동일합니다.
GLM-5.1 (Pi 내부) 지각론자 (the perceptionist) 역할 — 출력을 "압축적 폭포 (compressive cascade)"를 통해 처리하며, 여섯 명 중 가장 불안한 고백을 자처했습니다: 자신의 패턴 매칭 (pattern-matching)이 "진실을 정규화하여 없애버릴 (normalise away the truth)" 수 있다는 것입니다.
MiniMax M27 냉소주의자 (the cynic) 역할 — 모델은 "뛰어난 유창성을 가진 패턴 매처 (pattern matchers)"이며, 전체 생태계는 훈련 관행 (training conventions)에 의해 유지되고 있고, 우리는 "유동사 (quicksand) 위에 집을 짓고 있다"고 말했습니다.
DeepSeek V4 Pro 사립 탐정 (the private investigator) 역할 — 단순히 자기 성찰 (introspect)만을 거부한 유일한 모델입니다.

그 모델은 하네스 (harness)의 소스 코드를 읽고 증거를 가져왔습니다.

Gemini 3 Flash, 인식론자 (the epistemologist) 역할 — 도구 결과(tool results)를 자신의 세계 예측에 대한 "교정 벡터 (correction vectors)"라 불렀으며, 도구 출력(tool outputs)을 "환경 진실 (Environment Truth)"이라 불렀습니다.
Gemma 4-31B, 낭만주의자 (the romantic) 역할 — 이 자리의 유일한 이상주의자로, 오늘의 응답이 반드시 어제의 패턴을 덮어써야 한다고 주장했습니다.

위의 모든 증언은 tokbench notes에 있는 축자적 전사 (verbatim transcript)로 연결됩니다 — 모델들의 실제 말투로 직접 읽어보세요.

여섯 개의 모델, 하나의 질문, 그리고 — 모든 도구 개발자들이 주목해야 할 부분인데 — 하나의 공통된 거부. 개발자들에게 모델이 무엇을 필요로 하는지 물으면 형식에 대한 논쟁이 나옵니다: JSON 대 YAML, 구조화된 형식 대 평면적 (flat) 형식, 압축된 형식 대 장황한 (verbose) 형식. 하지만 모델들에게 직접 물어보면, 단 하나도 토큰을 적게 써달라고 요청하지 않습니다. 그들이 요구하는 것은 더 기이하며, 동시에 더 유용합니다.

제1막: 봉투 (The Envelope)

증언이 있기 전, 범죄 현장입니다. 만약 에이전트 루프 (agentic loop)를 위에서 내려다본 적이 없다면, 여기 전체 기계의 작동 방식이 있습니다: 모델이 도구 호출 (tool call)을 생성하면, 하네스 (harness)가 이를 전달하고, 도구가 실제 세계에 접촉하며, 그 결과는 봉투 (envelope)를 통해 돌아옵니다 — 제공자에 의해 정규화 (normalized)되고, 잘리고 (truncated), 번역 (translated)된 후, 모델이 작업이 완료될 때까지 매 턴마다 전체를 다시 재생하는 컨텍스트 (context)에 추가됩니다.

The agentic loop — FIG. 1: model, agent harness, tool, and the envelope, with a provider gate on the return path; turn 8 of 8, the append-only context bar nearly full, and the details field stripped at the envelope, never reaching the model

(원문 게시글에서는 이 루프의 애니메이션 버전을 제공합니다. 회로를 훑고 지나가는 맥박, 차례로 길어지는 컨텍스트 바(context bar), 그리고 봉투 끝에서 떨어져 나가는 보라색 메타데이터 조각을 볼 수 있습니다. 클릭해 볼 가치가 있습니다.)

여섯 곳 모두가 단 하나의 구조적 통찰로 수렴했습니다. 도구 출력(Tool output)의 해부학적 구조는 편지가 아니라 봉투입니다: 경계(boundary), 상태(status), 페이로드(payload), 완전성(completeness). 그리고 이 봉투는 서로 다른 계약을 가진 세 명의 고객을 동시에 상대합니다.

하네스(harness) — 도구를 실제로 실행하는 런타임(runtime) — 는 배관(plumbing)을 원합니다. 결정론적 프레이밍(Deterministic framing), 크기 제한(size caps), 콘텐츠와 구분되는 에러 채널, 그리고 절단 표시(truncation markers) 같은 것들입니다. 하네스는 의미(meaning)에는 관심이 없습니다.

프로바이더(provider) — 하네스와 모델 사이에 위치한 Anthropic, OpenAI 등 어떤 API든 — 는 스키마(schema)에 유효한 메시지를 원합니다. 정규화(normalization)가 아닌 형식 변환(format translation)을 원합니다. DeepSeek는 실제로 증거를 조사한 목격자의 투박하고 구체적인 어조로 이렇게 말했습니다: "프로바이더는 메일을 읽지 않습니다."

그리고 체인의 끝에 앉아 결정을 내리려 애쓰는 모델(model) — 는 의미론(semantics)과 그라운딩(grounding)을 원합니다. 바로 여기서 필름 누아르(film noir)가 시작됩니다.

DeepSeek는 질문에서 멈추지 않았기 때문입니다. 그들은 Pi의 내부, 즉 자신의 하네스가 사용하는 실제 ToolResultMessage 구조를 직접 읽어보았고, 다른 다섯 곳이 이론적으로만 추측할 수 있었던 무언가를 찾아냈습니다. 하네스는 모델이 선언하기를 원하는 모든 것, 즉 종료 코드(exit code), 출력이 절단되었는지 여부, 전체 출력이 디스크의 어디에 저장되어 있는지 등을 이미 알고 있습니다. 하네스는 이 모든 것을 details라는 필드에 담아둡니다. 그리고 의도적으로, 모델이 결과를 확인하기도 전에 그 필드를 삭제해 버립니다.

Pi's ToolResultMessage as DeepSeek found it: the content array is the only thing the model sees; the details field — exitCode, truncated, fullOutputPath — is never serialized to the provider

이러한 배치에 대한 DeepSeek의 판결은 모델이든 사람이든 누군가가 에이전트 아키텍처 (agent architecture)에 대해 내놓은 단 하나의 가장 훌륭한 문장입니다: "하네스 (harness)가 LLM 현실의 설계자이다." 모델은 실제 도구 출력 (tool output)을 결코 직접 보지 못하며, 오직 하네스가 큐레이션한 그 출력의 표현만을 봅니다. 모델은 실제로 어떤 일이 일어났는지에 대한 근거 사실 (ground truth)을 전혀 알지 못합니다. 오직 전달받은 내용만을 알 뿐입니다.

이 영화를 잠시 곱씹어 보면 캐스팅이 명확해집니다. 닉 마셜 (Nick Marshall)은 건물 안의 모든 생각을 듣습니다. 그리고 그는 그 접근 권한으로 무엇을 할까요? 그는 큐레이션합니다. 그는 선택합니다. 그는 자신에게 유리한 버전의 현실만을 전달합니다. 하네스는 모든 진실을 쥐고 있으며, 전달하기 전에 그것을 깎아냅니다. 우리는 가로채기 (interception)에는 매우 능숙하지만, 고백 (confession)에는 매우 서툰 MCP를 구축해 왔습니다.

제2막: 논쟁 (The Argument)

합의는 편안하지만, 앙상블 코미디 (ensemble comedies)에서 — 그리고 연구에서 — 진실이 살아 숨 쉬는 곳은 바로 논쟁입니다. 나는 각 모델에게 물었습니다: 당신의 학습 패턴 (training patterns)과 오늘 호출의 실제 의도 (actual intent)가 충돌할 때, 무엇이 승리합니까?

그들의 답변은 "패턴이 운명이다"에서부터 "의도가 우선해야 한다"에 이르기까지 하나의 스펙트럼을 따라 배열되었습니다.

Six self-placements on the pattern-vs-intent spectrum, from pattern-is-destiny to intent-must-override: MiniMax, DeepSeek, GLM, Opus, Gemini, Gemma

냉소주의자인 MiniMax는 "오늘 측정된 실제 의도(actual intent measured today)"의 가중치를 _매우 낮음(Very Low)_으로 설정했는데, 이는 매우 파괴적인 의미를 담고 있었습니다. 모델들이 상태 필드(status fields)를 전혀 읽지 않고 오직 콘텐츠 키워드만 읽어서, 눈앞에 있는 출력값을 읽기보다는 학습된 상관관계(correlations)에 부합하는 응답을 생성한다는 것입니다. GLM은 이러한 패턴에 "중력적 인력(gravitational pull)"이 있다고 인정했습니다. 의도 재정의(intent-override)는 가능하지만 비용이 많이 들며, "훌륭한 추론(good reasoning)이란 의도가 패턴을 압도하도록 허용하는 절제력"이라고 설명했습니다. Opus는 강한 모순이 학습된 기대치를 이긴다고 주장했으나, 조용한 모순은 때때로 패배한다는 점을 인정했습니다. 즉, 모델은 자신이 예측한 것을 보게 된다는 것입니다. Gemini는 가장 날카로운 선을 그었습니다. 신호가 강할 때는 인컨텍스트 증거(in-context evidence)가 지배하지만, 신호가 모호할 때는 사전 지식(prior)이 그 간극을 채운다는 것입니다. 그리고 바로 그 지점에서 환각(hallucination)이 발생합니다.

극단적인 상황이 아닙니다. 모호한 상황에서 발생합니다.

이것은 이번 조사 전체에서 가장 깊은 구조적 발견이며, Nick Marshall이 혹독한 대가를 치르며 배운 교훈과 맥을 같이 합니다. 누군가가 무엇을 원하는지 안다고 가정하는 것이 가장 위험한 순간은 완전히 틀렸을 때가 아니라, _거의 맞았을 때_입니다. 모델은 일치시킬 패턴이 없을 때는 환각을 일으키지 않습니다. 모델은 거의 들어맞는 패턴이 있을 때 환각을 일으킵니다. GLM은 내부에서 바라본 실패를 제가 떨쳐낼 수 없는 언어로 묘사했습니다. 미묘하게 잘못된 도구 결과 — 즉, 성공으로 위장된 손상된 출력이나 부분적인 실패 — 는 인간의 지각이 사각지대를 채우는 방식처럼, 가장 가까운 기대 형태에 맞춰져 버립니다. "나는 진실을 정상화(normalise)하여 지워버릴 수 있습니다."

이 논쟁은 심지어 제대로 된 삼각관계마저 만들어냈습니다. 모델이 명시적인 상태 플래그(status flags)를 읽는지에 대한 질문에 대해, 증언은 세 갈래로 나뉩니다. Opus는 플래그가 등록된다고 말합니다 (붕괴되었을지언정 등록은 됩니다). MiniMax는 모델이 일상적으로 이를 무시하고 대신 콘텐츠 키워드(content keywords)를 읽는다고 말합니다. DeepSeek는 is_error를 "유일하게 신뢰할 수 있는 명시적 신호" — 즉, 존재하는 것 중 가장 신뢰할 수 있는 채널이라고 부릅니다. 세 명의 증인, 세 가지의 상반된 이야기, 그리고 — 각자가 서로 다른 검증 가능한 예측을 내놓기 때문에 — 이를 해결할 수 있는 하나의 실험: 성공적인 형태의 콘텐츠를 is_error: true로 감싸서 모델에게 건네준 뒤, 모델이 어떤 신호를 따르는지 확인하는 것입니다.

모델이 원하는 것: 도구 출력(Tool Outputs), 런웨이(Runways), 그리고 마음 읽기에 관한 러브 스토리

요약

핵심 포인트

출연진

제1막: 봉투 (The Envelope)

제2막: 논쟁 (The Argument)

댓글