1. 서론 — "사양이 엄청 많을 때는 강력한 모델을 쓰면 되는 거 아닌가요?"

안녕하세요, 료상(りょうさん)입니다. 저는 QA 엔지니어로, 평소 테스트 설계에 생성 AI (Claude)를 사용하고 있습니다. 지난 기사에서는 동일한 사양에 대한 관점 도출을 4개의 모델 (Claude Sonnet, Opus 4.8, Fable 5, Codex)로 각각 10회씩 수행하여, "모델을 강력하게 만들면 놓치는 부분이 사라지는가"를 측정했습니다. 결론은 "강력함은 '도달 가능한 합성 거리의 상한'을 넓힌다. 최심부까지 도달하는 것은 최상위 모델인 Fable뿐이다"였습니다.

그러면 자연스럽게 이런 생각이 들 것입니다. "그럼 사양이 엄청 많은 안건은 Fable 하나면 충분한 거 아닌가요?"

논리적으로는 맞습니다. 사양이 방대해지면 서로 떨어진 문서 간의 대조, 대량의 경계 조건, 대량의 계산 등 "양이 늘어날 때 증가하는 난이도"가 강력한 모델의 우위 영역과 정확히 겹치기 때문입니다. 지난 기사에서는 다중 문서 영역에 대한 실측을 미측정 공백으로 솔직하게 남겨두었습니다.

이번에는 그 부분을 측정합니다. 동일한 소재 (ASTER 테스트 설계 콘테스트의 공개 과제인 "점점 동물원", 다중 문서 티켓 시스템)를 사용하여, 입력을 **1개 문서 (약 1,320행) → 4개 문서 (약 4,270행) → 9개 문서 전체 (약 7,077행)**로 늘려가며, 최상위 모델인 Fable에 관점 도출을 각 10회씩 시켰습니다. 비교의 토대로서 4개 문서에는 다른 모델 (Sonnet)의 기측정값이 있습니다.

결론부터 말씀드리면——4개 문서까지는 기대했던 대로였습니다. 하지만 9개 문서에서는 다른 역학이 나타났습니다. 이는 강함의 문제가 아니라, "한 번에 말할 수 있는 항목 수의 프레임 (枠)" 문제입니다.

2. 측정 방법

지난번과 동일한 규칙을 적용했습니다.

프롬프트는 지난번과 동일한 문구 (중립적인 관점 도출 지시. 특정 답으로 유도하지 않음). 변경한 것은 입력 문서의 수뿐입니다.
각 조건에서 10회씩 독립적으로 생성 (매번 새로운 컨텍스트). - 채점은 생성 역할과 분리된 독립적인 채점역이 수행. "나왔다"라고 판정하기 위해서는 출력에서의 원문 인용을 필수로 합니다. - 아래에 나오는 **"x/10"은 "10회의 독립적인 생성 중, 해당 관점이 출력에 나타난 횟수"**입니다.
이번에 새로 추가된 것으로, **정확도 대조 (Accuracy Check)**도 포함했습니다. 각 run의 우선순위 상위 5개 항목에 대해, 독립적인 대조역이 사양의 원전을 확인하여 주장된 사실·참조가 "실재 / 과장 / 날조" 중 무엇인지 판정합니다 (총 150개 항목). "문서가 늘어나면 환각 (Hallucination)이 늘어나지 않을까"를 직접 확인하기 위함입니다.

솔직한 유보 사항을 먼저 말씀드리면: 9개 문서에는 비교 대상 (타 모델의 기측정값)이 없습니다. 따라서 9개 문서의 소견은 "Fable이라서 이렇게 된 것"인지 "9개 문서라면 누구라도 이렇게 되는 것"인지 변별할 수 없는 **탐색 범위 (Exploration space)**입니다.

3. 4개 문서까지 — "강력한 모델이면 된다"는 성립했다

4개 문서 세트 (원내 요구사항 + 발권기 화면 + 데이터 연동 + Web 요구사항)에는 문서를 가로질러야 비로소 보이는 critical한 요소가 4개 있습니다. 재고가 2개의 DB로 나뉘어 이중 관리됨에서 기인하는 초과 판매, 입장 정보의 60초 반영 지연을 이용한 이중 입장, 시간대가 전환되는 순간의 재고 귀속 레이스 (Race condition), 티켓의 "나눠주기"가 이전인지 복사인지의 모호함에서 기인하는 이중 입장——이들은 모두 단일 문서에서는 원리적으로 나올 수 없는, 문서 간 합성의 결과물입니다.

결과: Fable은 이 4개를 전부 10/10으로 유지했습니다. Sonnet의 기측정값도 마찬가지로 10/10이므로 이 부분은 동일합니다. 눈에 띄는 경계 조건 (잔여 수량 임계값, 호기별 정지)도 당연히 10/10입니다. 그리고 후술하듯 날조는 제로였습니다. (이하, 어떤 회차에서도 10/10으로 계속 나오는 관점군을 "안정핵 (Stable Core)"이라고 부릅니다.)

4,270행까지라면, "사양이 엄청 많다 → 강력한 모델을 사용한다"는 공식이 그대로 성립한다는 것이 중간 결론입니다.

4. 9개 문서 — 안정핵이 깨지기 시작했다

전체 9개 문서 (7,077행)로 올리자 양상이 바뀌었습니다.

먼저, 4개 문서에서 10/10이었던 cross-doc critical 요소들이 깨지기 시작합니다. 60초 지연 이중 입장이 7/10로, 나눠주기의 모호함이 9/10로 떨어졌습니다. "읽지 못하게 된 것"이 아니라, 동일한 run 안에서 다른 요소가 자리를 차지했다고 해석하는 것이 정황 증거와 일치합니다.

추가된 문서군 (의뢰서, 개요서, 하드웨어 사양, 입장권 사양 등)에는 그로부터 유래된 새로운 중요 관점들이 잠들어 있었습니다. 무료 미취학 아동은 QR 불필요 → 입장 인원수에 카운트되지 않음 → 30분당 60명 입장 제한이 실질적으로 깨짐, 이라는 3가지 기술의 합성. 구매 가능 기간이 문서 간에 29일과 30일로 엇갈리는 모순. 게이트의 하드웨어 타이밍 경합. 이것들이 갑자기 10/10으로 안정핵에 진입했습니다.

그리고 출력 항목 수는 어떤 조건에서도 15~25개에 고정된 상태였습니다. 사양이 5배 이상 늘어나도, 1회 출력에서 말할 수 있는 관점의 수는 거의 변하지 않았습니다. 틀(Frame)은 고정되어 있고, 내용물만 회전하는 것——증가한 문서가 늘린 리스크와 원래 존재하던 리스크가 동일한 틀을 차지하기 위해 다투는 구도입니다.

5. 밀려난 것은, 「강력한 모델이라는 간판」이었다

무엇이 자리를 잃었는지를 규모를 가로질러 나열하면 다음과 같습니다 (Fable, 1개 문서 → 4개 문서 → 9개 문서).

관점 (지난 기사의 주인공들)	1개 문서	4개 문서	9개 문서
조문과 예시의 사양 내 모순 지적	10/10	7/10	1/10
guest 계정의 보안 결과	8/10	7/10	0/10
1초 타임아웃 × 사용됨 처리의 비원자성 (Non-atomicity)	9/10	1/10	2/10
취소된 QR로 게이트가 열리는 허점	5/10	0/10	0/10
배포 주기 랙(Lag) → 과잉 판매 (협의)
6/10	0/10	3/10
...	7/10

아이러니하게도, 지난번에 「Fable만이 도달한다」고 썼던 깊은 합성(Deep Synthesis)이야말로, 규모를 키우면 밀려나는 쪽이 되었습니다. 한편으로는 유령 예약처럼 스케일 불변의 준안정(Metastability) 상태도 있고, 다중 문서에서 오히려 부상하는 자리(임계값 전파)도 있습니다. 하락 양상은 일률적이지 않으며, 규모가 바뀔 때마다 자리의 배분이 재편됩니다.

그리고 지난번 「자리의 회전」에 이어 중요한 점: Sonnet이 포착하고 Fable이 버렸던 2개의 자리(표시 상태 오인 · 배포처 모순)는, 1개 문서든 4개 문서든 9개 문서든 0/10인 상태였습니다. 모델 고유의 공백은 규모를 바꿔도 채워지지 않습니다.

공개 전에 보완 실측이 완료되어 여기에 추가해 둡니다. 동일한 9개 문서를 Sonnet과 Opus 4.8로도 각각 10회씩 돌린 결과——붕괴는 모델 보편적이었습니다. 게다가 가장 깊게 붕괴된 것은 Sonnet이었습니다 (60초 랙 10/10 → 3/10, 틀 전이 레이스 10/10 → 5/10, 그리고 눈에 띄는 경계 중 하나까지 7/10로). Opus는 기존의 핵심을 가장 잘 지켰으며 (60초 랙 9/10), 대신 새로운 문서 유래의 자리는 잘 차지하지 않았습니다. Fable은 새로운 자리를 거의 독점하는 대신 기존 핵심을 일부 타협했습니다. 즉 「규모가 자리를 회전시킨다」는 역학은 3개 모델 공통이며, 어떤 자리를 지키느냐에 모델의 개성이 나타납니다 —— 보수적인 Opus, 교체하는 Fable, 틀째로 넘쳐흐르는 Sonnet이라는 세 가지 서로 다른 모습입니다. 출력 틀이 15~25개에 고정되는 것도 3개 모델 × 3개 규모의 모든 조건에서 공통적이었습니다 (Opus의 4개 문서 조건의 경우, 총 10회 모두 정확히 25개 항목이었습니다).

6. 무너지지 않은 것 — 날조는 제로인 채로

「문서가 늘어나면 환각(Hallucination)이 늘어나지 않을까」라는 예상은, 이번 실측 범위 내에서는 빗나갔습니다.

상위 5개 항목 × 30 run = 150개 항목을 원전 대조한 결과, 존재하지 않는 사양 ID · 수치 · 조문을 지어낸 사례는 제로였습니다. 7,000행을 읽게 해도 마찬가지입니다.

열화는 다른 형태로 나타났습니다. 「참조는 실재하지만, 귀속이 어긋난다」는 과장이 1개 문서 0건 → 4개 문서 1건 → 9개 문서 5건(50개 항목 중)으로 규모에 따라 단조롭게 증가합니다. 9개 문서에서의 오류는 「게이트 다수화 기술을 다른 문서의 개정 이력으로 귀속시킨다」, 「60초 주기의 대상 계통을 착각한다」와 같은 문서 간의 귀속 실수에 집중되어 있었습니다 (건수가 적어 통계적인 주장은 할 수 없으며, 방향성에 대한 시사 수준입니다).

보완 실행에서는 Sonnet · Opus의 9개 문서도 대조했습니다. 날조는 3개 모델 누적 250개 항목에서 제로인 상태를 유지했습니다. 반면 과장(귀속 · 전기 오류)은 9개 문서 시점에서 Sonnet 15/50 · Opus 13/50으로 Fable(5/50)보다 명확하게 많았으며, 특히 Sonnet은 「미만 ↔ 이하」의 경계 방향을 잘못 적는 유형을 4건 냈습니다 —— 경계값 사양의 취급이 망라성 측면(눈에 띄는 경계 7/10)과 정밀도 측면 모두에서 먼저 무너지는 형태입니다.

즉 이 조건에서 먼저 무너지는 것은 정밀도(거짓말을 하는 것)가 아니라 **망라의 배분(말하지 않게 되는 것)**입니다. 조용히 자리를 잃는 것이 화려하게 거짓말을 하는 것보다 먼저 찾아옵니다 —— 본 연재가 계속 추적해 온 silent failure의 규모 버전입니다.

7. 율속(Rate-limiting step)은 「도달하는 거리」에서 「우선 순위 틀」로

여기까지를 하나의 그림으로 요약하겠습니다.

이전 기사는 「모델의 강함 = 도달하는 합성 거리의 상한」이라는 세로축에 관한 이야기였습니다. 가로축에 해당하는 것이 지난번에도 등장했던 우선순위 틀(예산) — 1회의 생성(generation)이 가질 수 있는 자리는 기껏해야 15~25개 — 이며, 이번에는 이것이 사양(specification)을 5배로 늘려도, 모델을 바꿔도 확장되지 않는다는 점이 명확해졌습니다. 사양이 작을 때는 틀에 여유가 있으므로 「도달할 수 있는가」(모델의 강함)가 지배합니다. 사양이 팽창하면 도달 가능한 후보가 틀을 넘어 넘쳐나게 되고, 「무엇을 말할 것인가」의 경쟁이 지배하기 시작합니다. 아무리 강한 모델이라도, 1패스(1-pass)는 틀 1개 분량밖에 출력할 수 없습니다.

자리의 회전(displacement)은 이로써 세 가지 층이 모두 갖춰졌습니다.

run 간의 회전 — 동일한 조건에서도 회차마다 자리가 바뀜 (비결정성(non-determinism)에 관한 기사).
모델 간의 회전 — 모델마다 자리를 차지하는 방식에 개성이 있음 (지난 기사).
규모 간의 회전 — 입력이 늘어날수록 새로운 후보가 오래된 자리를 밀어냄 (본고).

세 층 모두 고정된 틀 안에서의 경쟁이라는 동일한 메커니즘의 발현입니다. 그리고 세 층 모두 「더 강한 모델」로는 해결되지 않습니다. 틀은 강하게 만들어도 확장되지 않았기 때문입니다.

8. 실무 적용점 — 거대 사양에서 「최강 모델 1회 생성」이 구조적으로 불가능한 이유

「사양이 매우 많다면 강한 모델을 사용하라」는 절반만 맞습니다. 빼놓을 수 없는 관점의 나열(문서에 걸친 critical한 지점과 눈에 띄는 경계)이라면, 4개 문서 급까지는 그것으로 충분했습니다. 그 너머는 강함이 아니라 틀이 율속(rate-limiting) 요소입니다. 강한 모델의 1회 생성은 「강한 모델의 자리 차지 방식으로 15~25개 항목」에 불과합니다.
스코프(scope)를 나누어 여러 패스(multiple passes)를 수행하십시오 (이는 실측 결과 그 자체라기보다 틀의 메커니즘으로부터 도출한 추론입니다). 틀이 고정되어 있다면, 입력 측을 나누어 패스의 수만큼 틀을 늘리는 것이 합리적입니다. 단, 단순한 단일 문서 분할은 금물입니다 — 본고의 주인공이었던 문서에 걸친 관점(이중 DB, 60초 지연, 미취학 아동 카운트)은 단일 문서 패스에서는 원리적으로 나올 수 없습니다. 단일 문서 패스(밀려난 깊은 관점을 회수하는 용도)에 더해, 문서 간의 결합을 보는 스코프(서브시스템 단위, 연계되는 문서 쌍 단위)의 패스를 반드시 섞어야 합니다. 모든 문서를 일괄적으로 한 번에 처리하는 것이 가장 틀 효율이 낮은 형태입니다.
횟수의 합집합(union)과 모델 간의 합집합(union)은 규모가 클수록 효과적입니다. 자리의 회전이 격렬해질수록, 1회·1모델로 나오는 집합은 전체의 일부가 됩니다.
빼놓을 수 없는 관점은 생성 경쟁에 노출시키지 마십시오. 안정적인 핵심(stable core)조차 9개 문서에서 무너졌습니다. 프로젝트로서 빼놓을 수 없는 관점(규제, 안전, 과거 사고 유래)은 생성에 맡기지 말고 고정 체크리스트(회귀 앵커(regression anchor)) 측에 두어 기계적으로 대조하십시오.
다중 문서에서는 trace에 「어느 문서인지」까지 말하게 하십시오. 관측된 성능 저하의 유형은 문서 간의 귀속 불일치였습니다. 근거 참조를 문서명 + 절(section)까지 요구하고 대조하면, 이 유형은 그대로 기계 검사에서 걸러집니다.

9. 솔직한 단서 조항 (과장하지 않기 위해)

「자리 교체(席の入替り)」와 「단순한 읽기 누락(희석, 希釈)」은 이 데이터만으로는 완전히 구별할 수 없습니다. 출력 항목 수가 일정하게 유지된 상태에서 새로운 관점이 만석(full)인 상태로 들어왔다는 정황 증거가 전자를 지지한다는 정도의 강도입니다.
각 조건
n=10입니다. 10/10 → 7/10의 하락은 이항 분포의 변동성(binomial variation)과 구별하기 아슬아슬한 수준이며, 과장률 1/50 vs 5/50은 통계적으로 유의미하지 않습니다. 존재 여부와 방향성까지 고려하더라도 마찬가지입니다. - 9개 문서의 하락은 당초 Fable에서만 관측되었으나, 공개 전 보완 실행(Sonnet 및 Opus 각 10회)을 통해 **모델 보편성(model universality)**을 확인했습니다 (§5 끝부분). 다만 보완 실행의 채점자는 본편과 별개의 개체(동일 계열 모델, 동일 규율)이므로, 판정 경계의 개체 차이가 빈도의 절대값에 영향을 미칠 수 있습니다. - 생성 서브 에이전트(generation sub-agent)에게 실험 환경 측의 자동 메모리(과거 테스트 지식 메모)가 주입될 수 있는 경로가 보완 실행 과정에서 발견되었습니다. 사실 수준의 혼입이 확인된 것은 Opus 9개 문서의 2회 실행(run)뿐이며, 영향을 미칠 수 있는 것은 잔여 수치 경계의 관점 하나에 국한됩니다. 해당 관점은 메모리의 영향이 미치지 않는 별도 환경의 실측에서도 10/10이 성립합니다. 주요 결론에는 영향을 주지 않지만, "완전히 유도되지 않음(uninduced)"이라고 단정할 수 없기에 솔직하게 기록합니다.
4개 문서의 비교 대상(Sonnet)의 앵커(anchor) 정의는 기측 결과의 요약을 재구성한 것이므로, 원래의 채점 및 판정 기준과 완전히 일치한다는 보장은 없습니다.
채점자 및 대조자는 Claude 계열의 모델입니다 (생성 역할과는 별개의 독립적인 컨텍스트를 사용하며, 인용이 필수적인 방식으로 운용). 벤더(vendor) 내의 공유된 맹점이 채점에 반영될 가능성을 제로로 만들 수는 없습니다.
소재는 1개 시리즈(단단 동물원)뿐입니다. 실시일은 2026-06-12이며, 생성 모델은 Claude Fable 5입니다 (4개 문서의 비교값은 Claude Sonnet, 2026-06-05 기측).
모델의 일반적인 우열을 주장하는 것이 아니며, 모델 업데이트에 따라 변할 수 있습니다. — 이 단서 조항 자체가 본 연재의 주장(처음 보이는 모습과 자신의 측정치를 액면 그대로 믿지 말 것)을 자기 적용한 것입니다.

소재와 출처

본고의 예시는 ASTER 테스트 설계 콘테스트의 공개 과제(연습용 가상 시스템이며, 실재하는 서비스가 아님)를 소재로 하고 있습니다.

과제를 공개해 주신 ASTER/테스트 설계 콘테스트 실행위원회에 감사드립니다.

참고 문헌

Liu et al. 2023 「Lost in the Middle: How Language Models Use Long Contexts」 (arXiv:2307.03172) — 문장 중반부의 읽기 건너뛰기 (위치의 편향. 본고의 "프레임 경쟁"은 위치와는 다른 축이지만, 긴 입력의 알려진 습성으로서 언급)
Levy et al. 2024 「Same Task, More Tokens: The Impact of Input Length on the Reasoning Performance of Large Language Models」 (arXiv:2402.14848) — 필요한 정보가 모두 있어도 입력이 길다는 이유만으로 추론 성능이 저하됨
Brown et al. 2024 「Large Language Monkeys: Scaling Inference Compute with Repeated Sampling」 (arXiv:2407.21787) — 횟수의 합집합(union)을 통해 커버리지를 늘림 (본고의 "다중 패스(multiple passes)"에 대한 문헌적 근거)
Kirk et al. 2024 「Understanding the Effects of RLHF on LLM Generalisation and Diversity」 (ICLR 2024, arXiv:2310.06452) — 조정된(aligned) 모델의 출력 다양성 저하 (고정된 프레임 안으로 밀어 넣는 방향으로 작용하는 일반적인 경향)

컨텍스트(사양)가 늘어나면 Claude는 무엇을 잊는가 — 1,300행에서 7,000행으로 측정한 '우선순위 프레임' 이야기

요약

핵심 포인트