형식이 아닌 용량의 문제: 구조화된 추론 실패에 대한 재고
요약
구조화된 출력(Structured Output)이 모델의 추론 성능에 미치는 영향을 분석한 연구입니다. 형식 지정은 모델의 여유 용량에 따라 성능 저하를 유발하며, 이는 단순한 토큰 부족이 아닌 용량 경쟁 문제임을 밝혀냈습니다.
핵심 포인트
- 구조화된 형식은 모델의 여유 용량에 의존적임
- 용량이 부족한 모델은 JSON 사용 시 성능이 급격히 하락함
- 토큰 예산을 늘려도 발생하는 순수한 용량 경쟁 메커니즘 확인
- 먼저 자유롭게 추론한 후 형식을 갖추는 방식이 성능 회복에 효과적임
기존 연구들은 구조화된 출력 (Structured Output)을 추론에 대한 세금 (Reasoning Tax)으로 취급해 왔으나, 이러한 프레임워크는 불완전합니다. 포맷팅 (Formatting) 비용은 모델의 여유 용량 (Spare Capacity)에 크게 의존하기 때문입니다. 본 연구에서는 정보가 일치하는 산문 제어 (Information-matched prose controls)와 4단계 스키마 복잡도 구배 (Four-level schema complexity gradient)를 사용하여, 4개의 모델과 5개의 벤치마크를 대상으로 성공적으로 생성된 응답에서 파싱 실패율 0%를 기록하며 프롬프트 길이의 혼란 변수 (Prompt-length confounds)로부터 형식 특이적 효과를 분리해냈습니다. 우리는 구조화된 형식이 용량 의존적 (Capacity-dependent)이라는 것을 발견했습니다. 충분한 여유 공간을 가진 모델은 성능 저하 없이 JSON 제약 조건을 수용합니다 (MATH-Hard 데이터셋에서 Sonnet: JSON 사용 시 $88.7 ext hinspace extpm 4.0$% vs. CoT 사용 시 $89.3 ext hinspace extpm 1.7$%). 반면, 한계점에 근접하여 작동하는 모델의 경우 두 가지 뚜렷한 메커니즘을 통해 형식이 성능을 심각하게 저하시킵니다. 첫째, 표준 토큰 예산 (Token budgets) 하에서 Haiku는 주로 절단 (Truncation)으로 인해 36.2pp ($p < 0.0001$) 하락합니다. 둘째, 절단을 제거하기 위해 예산을 확장하더라도 GPT-4o-mini는 28.0pp ($p < 0.001$) 하락하며, 이는 토큰 고갈과 무관한 순수한 용량 경쟁 (Capacity competition)을 드러냅니다. 이러한 형식 페널티 (Format penalty)는 스키마 복잡도에 따라 증가하며 (McNemar $p < 0.0001$), 프롬프트 길이만으로는 설명될 수 없습니다. 나아가, 이러한 결과는 프런티어 모델 (Frontier model)의 면역력 주장에 의문을 제기합니다. AIME 경시 수학 문제에서 Opus는 JSON 사용 시 96.2%에서 91.0%로 하락합니다 ($-5.3$pp; 표시된 백분율은 독립적으로 반올림되었으며, 정확한 차이는 $7/133 = 5.26$pp $\approx 5.3$pp입니다). 지연된 구조 (Delayed-structure) 제거 실험 — 즉, 포맷팅 전에 자유롭게 추론하는 방식 — 은 손실된 정확도의 대부분을 회복하며 (3회 실행 평균: 80--87%), 이는 용량 경쟁 메커니즘을 뒷받침합니다. 실질적인 시사점은 구조화된 출력을 피하는 것이 아니라, 모델의 용량에 맞추는 것입니다. 모델이 한계에 도달했을 때는 먼저 생각하고, 나중에 형식을 갖추십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기