1. 서론 — 입력 설계의 「제3탄」

도모리 료(どうもりょう)입니다.

저는 QA 엔지니어로, 평소 테스트 설계에 생성형 AI (Claude)를 사용하고 있습니다. 본 연재에서는 입력 설계에 관한 이야기를 두 번 썼습니다. 제4편은 하나의 사양을 어떻게 읽힐 것인가(공간의 설계), 제10편은 과거 버전이 있는 사양을 어떻게 전달할 것인가(시간의 설계)였습니다. 본고는 제3탄, **규모 (Scale)**의 설계입니다——사양이 수천 행·여러 문서로 방대해졌을 때, 어떻게 전달할 것인가.

계기는 직전의 실측입니다. 동일한 주제로 입력을 약 1,300행에서 7,000행으로 늘려가며 관점 도출을 측정해 본 결과, 망가지는 방식이 예상과 달랐습니다. 읽지 못하게 되는 것이 아니라, 말하지 않게 되는 것이었습니다. 1회의 출력(Output)이 가질 수 있는 관점의 자리는 15~25개로 늘어나지 않았고, 문서가 늘어날수록 자리 경쟁이 치열해져, 4개의 문서에서는 매번 나왔던 critical한 관점까지 자리를 잃기 시작했습니다. 반면, 존재하지 않는 기술을 지어내는 환각 (Hallucination)은, 각 회차의 상위 5개 항목 × 30회 = 150개 항목의 대조 결과 0건이었습니다.

(이하 「10/10」과 같은 숫자는, 「10회의 독립적인 생성 중 해당 관점이 출력에 나타난 횟수」를 의미합니다.)

즉, 「긴 사양서를 읽히는」 문제의 본질은 흔히 걱정하는 「길면 환각이 늘어난다」가 아니라 (적어도 이번 실측 범위 내에서는), 전부를 말할 수 없다·떨어져 있는 것들을 다 연결하지 못한다는 데 있습니다. 본고는 이 망가지는 방식의 지도를 먼저 그린 후, 입력 측에서 할 수 있는 대책을 일반 원칙의 형태로 나열하겠습니다.

2. 길어지면 무엇이 망가지는가 — 망가지는 방식의 지도

한마디로 「장문에 약하다」고 말하는 것들은, 실측과 문헌을 대조해 보면 적어도 5가지 종류로 나뉩니다. 대책이 모두 다르므로 우선 분류하겠습니다.

(a) 위치의 편향 — 중간 부분이 얕게 읽힘. 이른바 Lost in the Middle (Liu et al. 2023, arXiv:2307.03172). 문맥의 중간에 놓인 정보는 사용되기 어렵습니다. 이는 입력 측·읽기의 문제입니다.

(b) 길이 그 자체에 의한 추론 저하. 필요한 정보가 모두 들어있더라도, 입력이 길다는 이유만으로 추론 성적이 떨어집니다 (Levy et al. 2024, arXiv:2402.14848).

(c) 멀티 홉 (Multi-hop)·집약의 저하. 「한 곳을 찾는 것」은 장문에서도 견고하지만, 「여러 곳을 연결하기」나 「전체를 집계하기」는 먼저 망가집니다 (RULER: Hsieh et al. 2024, arXiv:2404.06654 / 글자 일치가 없는 검색에서 무너지는 NoLiMa: Modarressi et al. 2025, arXiv:2502.05167). 저의 실측에서도 7,000행에서 눈에 띄는 규칙을 찾아 적용하는 것은 10/10으로 견고했으나, 망가진 것은 떨어진 기술들의 합성(Synthesis)이었습니다.

(d) 우선권 경쟁 — 읽고 있는데 말하지 않음. 앞서 언급한 실측 결과입니다. 출력의 자리가 1525개로 고정되어 있으므로, 사양이 늘어날수록 「전달된 후보 중 무엇을 말할 것인가」의 경쟁이 지배하게 됩니다. 읽기의 실패라기보다 **출력 선발의 동작 (Behavior)**이라고 보는 것이 상황 증거와 일치하며, (a)(c)와는 축이 다릅니다. 요약 태스크 측에서도 동일한 유형의 관측이 있습니다 (대량의 insight를 가진 문서군을 요약시키면, 관련 문서를 알려주어도 출력에 실리는 것은 일부에 그침. Laban et al. 2024 「Summary of a Haystack」, arXiv:2407.01370).

(e) 문서 간 귀속 오류. 실측에서 관측된 저하 유형은 이것이었습니다. 참조하는 기술 자체는 실재하지만, 어느 문서의 어느 절인지에 대한 귀속이 문서 수가 늘어날수록 어긋납니다 (1개 문서 0건 → 9개 문서 5건/50개 항목, 그중 과반이 문서 간 귀속 오류. 지어내기는 0건 유지. 건수가 적고 방향성에 대한 시사 수준임).

지도의 포인트는 두 가지입니다. 첫째, 「읽지 못하는」 계열 (a-c)과 「말하지 않는」 계열 (d), 「어긋나는」 계열 (e)은 서로 다른 고장이며 대책도 다릅니다. 둘째, 단순한 검색·추출은 장문에서도 상당히 견고하다——「AI는 긴 것을 읽지 못한다」는 소박한 체념은 실측 결과와 맞지 않습니다. 망가지는 지점은 국소화되어 있습니다.

3. 대책의 기둥 — 규모의 입력 설계

이하, 제가 보유한 파이프라인의 실측과 운용을 통해 일반화한 7가지 원칙입니다. 실측으로 직접 확인한 것(◎)과 메커니즘으로부터의 추론(○)을 구분하여 표기합니다.

기둥 1: 전체 일괄 「한 방」을 규모 면에서 금지하기 (◎ 실측 유래)

관점 후보가 출력의 자리 수를 초과하는 규모에서는, 전체를 일괄적으로 읽히는 1-패스 (1-pass) 생성은 구성적으로 최악입니다 (아무리 강력한 모델이라도 자리는 1-패스 분량뿐입니다). 입력의 행 수·문서 수에 임계값(Threshold)을 두고, 이를 초과하면 다음 기둥 2로 분기한다——「읽을 수 있으니까 전달한다」가 아니라 「다 말할 수 있는 규모씩 전달한다」가 원칙이 됩니다.

기둥 2: 스코프를 나누어 여러 번 패스(Pass)하되, 반드시 「결합 스코프(結合スコープ)」를 섞는다 (◎＋○)

프레임(Frame)이 고정되어 있다면, 입력 측을 나누어 패스의 수만큼 프레임을 늘리는 것이 이치입니다. 하지만 여기에 함정이 있습니다——실측 결과 가장 비중이 컸던 관점은, 문서를 가로질러서야 비로소 보이는 합성(Synthesis) (예: 재고가 두 개의 DB에서 이중 관리되어 과잉 판매되는 경우 등)이었습니다. 그리고 이러한 종류의 관점은 구조상, 단일 문서의 패스(Pass)만으로는 원리적으로 나올 수 없습니다. 단순히 문서별로 분할하면, 심층 분석(Deep dive)은 회복되는 대신 횡단적 분석이 전멸하게 됩니다.

따라서 분할은 두 층으로 구성합니다: 단일 문서 패스 (해당 문서의 깊은 관점을 경쟁이 적은 프레임에서 회수) + 결합 스코프 패스 (연계되는 문서 쌍이나 서브시스템 단위로 '가로지르기'만을 확인). 무엇과 무엇이 연계되어 있는지는 인터페이스 정의(Interface definition)나 데이터 연계 사양의 유무를 통해 기계적으로 열거할 수 있습니다.

기둥 3: 횟수의 합집합(Union)과 모델 간의 합집합(Union) (◎)

동일한 조건이라도 자리는 회차마다 돌아가며(비결정성(Non-determinism)의 실측), 모델마다 선호하는 자리가 있고, 규모가 바뀌면 또 바뀝니다. 실측한 3개 층의 회전(실측: 모델 비교 기사) 모두 「1회·1모델」의 출력을 전체의 일부로 삼습니다. 규모가 커질수록 여러 회차 × (가능하다면) 여러 모델의 합(Sum)을 취하는 가치가 올라갑니다——그리고 합을 취한다는 전제라면, 개별 패스가 '완벽하게 보일' 필요는 없어집니다.

기둥 4: 놓쳐서는 안 될 관점은 생성의 경쟁에 노출시키지 않는다 (◎)

실측에서 가장 뼈아픈 교훈이었습니다. 매번 10/10점으로 나오던 관점(안정적 핵심)조차, 문서가 늘어나면 자리를 잃었습니다. 즉, "중요하니까 AI가 매번 말해주겠지"라는 생각은 규모의 문제 앞에서는 성립하지 않습니다. 프로젝트로서 놓쳐서는 안 될 관점——규제 요건, 안전 요건, 과거 사고 유래 체크 사항——은 생성에 맡기지 말고 고정된 체크리스트로 보유하여, 출력 측과 기계적으로 대조해야 합니다(나오지 않았다면 기계가 지적하도록 함). 생성은 발견을 위한 도구, 보증은 결정론(Determinism)의 도구라고 역할을 나눕니다.

기둥 5: 근거 참조는 「문서명 + 절(Section)」까지 말하게 하여 대조한다 (◎)

다중 문서에서 관측된 열화(Degradation)의 유형은 "참조는 실재하지만, 귀속이 어긋남"이었습니다. 이는 대책이 그대로 기계 검사로 이어지는, 고마운 유형입니다. 출력의 근거 제시를 「§3.2」가 아니라 "데이터 연계 사양 §3.2"와 같이 문서명을 포함하여 요구하고, 실재 여부와 정합성을 기계적으로 대조합니다. 제6편(근거를 남기게 하기)에서 쓴 Trace(추적) 규율의 규모 버전입니다.

기둥 6: 인덱스와 차분(Diff)은 기계적으로 만들어 전달한다. 요약하지 않는다 (○, 제4편 Layer A의 연장)

긴 것을 "요약해서 전달하는 것"은 제4편에서 썼듯이 대책의 토대 자체를 파괴합니다 (읽기 편향(Bias) 대책은 거의 전부 원전을 읽는 것을 전제로 합니다). 규모 버전의 정답은 **요약이 아니라 인덱스(Index)**입니다. 목차·절 제목·ID 목록과 같은 "어디에 무엇이 있는가"만을 LLM을 거치지 않고 기계적으로 추출하여 맨 앞에 붙입니다. 본문은 원전 그대로 둡니다. 주의를 유도하되 내용은 바꾸지 않습니다. 이렇게 하면 (a)의 위치 편향 문제에도 대응할 수 있고, 탐색의 발판으로서도 효과적입니다.

기둥 7: 중반에 중요한 것을 두지 않는다 · 독립 재독으로 다시 잡아낸다 (○, 문헌 유래)

(a)의 위치 편향에 대한 대책은 기둥 1~6과 독립적으로 작용합니다. 여러 문서를 결합하여 전달할 때의 배열 순서에서, 중요 문서를 중반에 묻어두지 마십시오. 그리고 놓친 것을 회수하는 작업은 출력의 리뷰가 아니라 원전의 독립 재독으로 수행해야 합니다 (출력을 리뷰해 봤자, 상류 단계에서 누락된 것은 두 번 다시 보이지 않습니다).

4. 세 가지 입력 설계의 관계

축	기사	질문	핵심
공간 (1 spec)	제4편	하나의 사양을 어떻게 읽힐 것인가	원전 유지·읽는 관점 강제·별도 컨텍스트 검증
...

세 가지는 쌓아 올리는 것입니다. 규모의 설계는 원전 유지(공간)와 버전의 외재화(시간)가 완료되었다는 전제 위에 올라갑니다. 역으로 말하면, 방대한 사양에서 "일단 전부 읽히자"가 힘든 이유는, 공간·시간 설계를 하고 있더라도 규모의 축만큼은 입력을 정돈해도 사라지지 않기 때문입니다 (출력의 자리가 늘어나지 않으므로). 이 부분만큼은 전달 방식, 즉 **실행 방식(Running)**의 설계가 됩니다.

5. 요약

긴 사양서로 인해 망가지는 것은 「읽기」뿐만이 아닙니다. 실측에서 지배적이었던 것은 읽고 있음에도 말하지 않음 (우선순위 프레임) 이었습니다. 정밀도 측면의 열화는 귀속 어긋남 (Attribution Shift) 의 형태로 나타났습니다 (소수 사항 및 방향성 시사까지). 허위 정보(Hallucination)의 생성은 늘어나지 않았습니다. - 따라서 대책은 「더 많이 읽을 수 있는 모델」을 찾는 것이 아니라:
확언할 수 있는 규모씩 전달하기 / 단일 문서 + 결합 스코프의 2층 구조로 나누기 / 횟수와 모델의 합집합(Union) 취하기 / 놓쳐서는 안 될 관점은 경쟁에 노출시키지 않고 고정 리스트로 대조하기 / 근거는 문서명까지 말하게 하여 기계적 대조하기 / 요약하지 않고 인덱스(Index)를 전달하기 입니다. - 「AI는 긴 것을 읽지 못한다」며 포기하는 것도, 「컨텍스트(Context)가 크니까 전부 들어간다」며 안심하는 것도, 둘 다 망가지는 지점을 잘못 짚고 있습니다. 망가지는 지점은 국소적이며, 설계로 막을 수 있는 형태를 띠고 있습니다.

6. 솔직한 단서 (과장하지 않기 위해)

「우선순위 프레임」, 「귀속 어긋남」, 「안정 핵(Stable Core)의 붕괴」의 실측은 n=10 × 조건·제재 1계열 (Dandan Zoo), 2026-06-12의 결과입니다. 안정 핵의 붕괴 · 출력 프레임의 고정 (15~25) · 날조 제로 · 귀속 어긋남 형태의 열화는, 보완 실행(Complementary run)에서 Claude Sonnet · Opus 4.8 · Fable 5의 3개 모델 공통임을 확인했습니다 (붕괴의 깊이에는 모델 간 큰 차이가 있었으며, Sonnet이 가장 깊었습니다).
「읽고 있음에도 말하지 않음」과 「읽기 누락 (희석)」은 원래의 실측 데이터만으로는 완전히 구별할 수 없습니다 (출력 항목 수가 일정하게 유지된 상태에서 새로운 관점이 가득 차서 들어왔다는 정황 증거가 전자를 지지합니다).
주요 논지 중 ◎은 실측(또는 그 직접적인 결과), ○은 기제(Mechanism)와 문헌으로부터의 추론입니다. 논지 2의 「2층 분할의 유효성」 자체를 분할 실행으로 검증한 것은 아닙니다 (단일 문서 분할이 cross-doc 관점을 놓친다는 것은 구조상 자명하지만, 2층 합집합(Union)의 회수율은 미측정 상태입니다).
문헌 평가는 2026-06 시점의 것입니다. 긴 문맥(Long Context)은 모델 업데이트가 빠른 영역이므로, (a)~(c)의 절대적 수준은 계속 변합니다. 다만 (d) 우선순위 프레임은 「출력을 얼마나 쓸 것인가」의 문제이므로, 컨텍스트 길이의 진보만으로는 자동으로 해결되지 않습니다.
——이 단서 자체가 본 연재의 주장(첫인상과 자신의 측정치를 액면 그대로 믿지 마라)을 스스로 적용한 것입니다.

제재와 출처

실측 제재는 ASTER 테스트 설계 콘테스트의 공개 과제(연습용 가상 시스템이며, 실존하는 서비스가 아닙니다)입니다.

과제를 공개해 주신 ASTER / 테스트 설계 콘테스트 실행위원회에 감사드립니다.

참고 문헌

Liu et al. 2023 「Lost in the Middle: How Language Models Use Long Contexts」 (arXiv:2307.03172) — 위치 편향 (a)
Levy et al. 2024 「Same Task, More Tokens」 (arXiv:2402.14848) — 길이 자체에 의한 추론 열화 (b)
Hsieh et al. 2024 「RULER: What's the Real Context Size of Your Long-Context Language Models?」 (arXiv:2404.06654) — 다중 홉(Multi-hop) · 집약의 선행 열화 (c)
Modarressi et al. 2025 「NoLiMa: Long-Context Evaluation Beyond Literal Matching」 (arXiv:2502.05167) — 문자 일치 없는 검색의 붕괴 (c)
Laban et al. 2024 「Summary of a Haystack」 (arXiv:2407.01370) — 검색이 완벽해도 출력이 일부에 그침 (d)
Brown et al. 2024 「Large Language Monkeys」 (arXiv:2407.21787) — 횟수의 합집합(Union)에 대한 문헌적 근거 (논지 3)
Hsieh et al. 2024 「Found in the Middle: Calibrating Positional Attention Bias」 (arXiv:2406.16008) — (a)는 보정(Calibration)으로 완화 가능하므로 고정적 한계가 아님을 보여주는 문헌

생성형 AI에게 '긴 사양서'를 어떻게 읽힐 것인가 — 규모의 입력 설계

요약

핵심 포인트