추론을 길게 할수록 정확도가 떨어진다: 19~31스텝의 '결정론적 지평'과 에이전트 설계의 재구성

「생각하게 할수록 똑똑해진다」라는 직관으로 에이전트(Agent)를 설계하고 있지는 않은가. 프롬프트에 「step by step으로」라고 쓰고, 추론(Reasoning)을 길게 끌어내며, 그 사고 과정을 로그로 모니터링하고, 때로는 라우팅(Routing)의 판단 재료로 삼는다. 2026년 6월 1일 arXiv에 동시에 발표된 3편의 논문을 나란히 읽어보면, 이러한 설계 사상 자체가 구조적으로 무너져 있다는 것을 알 수 있다.

3편의 논문은 각각 서로 다른 현상을 다루고 있다. 하지만 결론은 한 점으로 수렴한다. 모델의 「추론 트레이스(Reasoning trace = 모델이 정답에 이르기까지 출력하는 사고의 중간 과정)」를 신뢰할 수 있는 제어 신호로 취급해서는 안 된다는 것이다.

순서대로 살펴보자.

직관의 역설: 「생각하게 할수록 똑똑해진다」는 상태 추적에서는 성립하지 않는다

먼저 수치적 영향력이 가장 큰 논문부터 살펴보자. "The Deterministic Horizon"은 Chain-of-Thought (연쇄적 추론)를 길게 할수록 오히려 성능이 떨어지는 태스크 군이 있다는 것을 이론과 실험 모두를 통해 보여주었다 (arXiv:2606.00376).

성능이 떨어지는 것은 「state-tracking (상태 추적)」이라 불리는 태스크다. 즉, 직전까지의 상태를 올바르게 기억해 두었다가 매 단계마다 업데이트를 계속해야 하는 문제를 말한다. SQL 다단계 쿼리, 여러 웹 페이지를 넘나드는 조작, 긴 코드 변경 등이 이에 해당한다. 우리가 매일 에이전트에게 맡기고 있는 일들이 바로 이런 종류의 작업이다.

왜 성능이 떨어지는가. 저자들은 그 원인을 학습의 편향이 아니라, decoder-only (GPT 계열에서 사용되는, 왼쪽에서 오른쪽으로 일방향으로 읽는 타입)의 attention (주의 메커니즘)이 가질 수 있는 정보량의 상한선에서 찾았다. 논문은 용량의 상한을 $O(H ext{·} ext{log}(L/H) ext{·} ext{√}d_h)$라는 형태로 나타내고 있다 ($H$는 헤드 수, $L$은 시퀀스 길이, $d_h$는 헤드 차원). 요컨대, 기억할 수 있는 상태의 양에는 수학적인 천장이 있다는 주장이다.

그리고 이 천장이 작용하기 시작하는 경계를 「결정론적 지평 (Deterministic Horizon, $d^*$)」이라고 명명했다. 논문에 따르면 이 지평은 19~31스텝 사이에 존재한다. 이를 넘어서면 정확도가 초지수적으로 (즉, 절벽에서 떨어지듯이) 붕괴한다.

수치는 구체적이다. 동일한 태스크에서 도구 통합형 추론 (계산이나 상태 관리를 외부 도구에 넘기는 방식)은 86~~94%의 정확도를 유지한다. 반면, 순수 뉴럴 Chain-of-Thought (모델의 머릿속으로만 해결하는 방식)는 24~~42%까지 떨어진다. 그리고 fine-tuning (추가 학습)으로 개선되는 폭은 5% 미만이었다. 학습으로 메울 수 없다는 것은 이것이 훈련 부족이 아니라 구조적인 천장이라는 뒷받침이 된다. 12개 모델, 8개 도메인 (SWE-Bench, WebArena, SQL-Multi 등)에서 측정했을 때 실패의 상관관계는 $r = 0.81 ext{~} 0.91$이었다. 모델을 바꿔도 똑같은 지점에서 무너진다는 의미다.

AIデータセンターのGPUサーバー列。attentionが持てる情報容量には構造的な上限がある

즉, 무엇을 말하고 싶은 것인가. 긴 상태 추적을 「모델이 더 정중하게 생각하게 함으로써」 해결하려는 것은 구조적으로 잘못된 접근이다. 20스텝 전후를 넘어서면, 생각하게 할수록 상황은 악화된다.

「말한 것」과 「생각한 것」은 별개: faithfulness gap

다음 논문은 다른 각도에서 추론 트레이스를 의심한다. "Doing What They Say, Not What They Reason"은 에이전트가 「자신이 서술한 추론대로 행동하는가」를 검증했다 (arXiv:2606.00476).

검증 방식은 정교하다. 정답 행동이 일의적으로 결정되는 텍사스 홀덤 시뮬레이터를 사용하여, 모든 결정에 검증 가능한 참조 행동을 마련했다. 그 위에서 「충실도 격차 (faithfulness gap)」를 두 단계로 분해한다. 추론에서 결론으로 이어지는 격차와, 결론에서 행동으로 이어지는 격차다.

여기서 보고된 결과는 시사하는 바가 크다. 이 두 단계는 서로 반대 방향으로 움직인다는 것이다. 한쪽이 좋아지면 다른 한쪽은 나빠지는 비대칭적 구조가 존재한다.

즉, 무엇을 말하고 싶은 것인가. 모델이 출력한 추론 트레이스를 읽더라도 그 이후의 행동을 순순히 예측할 수 없다. 「이렇게 생각하고 있습니다」라고 적힌 내용과 실제로 어떻게 움직이는가 사이에는 단순한 비례 관계가 없다. 따라서 추론 트레이스를 모니터링 로그나 라우팅의 근거로 삼으면, 보고 있는 것과 실제로 일어나는 일 사이에 괴리가 생긴다.

모델은 자신의 한계를 과대평가한다: capability self-assessment

세 번째 논문은 더 근본적인 부분을 찌른다. "Capability Self-Assessment"는 모델이 「자신에게 이것을 해결할 능력이 있는지」를 판단하는 능력 (CSA)을 측정했다 (arXiv:2606.00251).

결과는 명확하다. 현대의 LLM은 모델 패밀리나 규모를 불문하고 체계적으로 자신의 능력을 과대평가한다. 풀 수 없는 문제에도 「풀 수 있다」며 발을 들여놓고 만다. 자신의 한계를 모르는 것이다.

논문은 이를 정책 학습(Policy Learning)의 문제로 정식화하여, 강화학습 (RL)으로 자기 평가를 가르치면 효과적으로 습득할 수 있는 반면, 지도 미세 조정 (SFT)에서는 본래 측정하고자 하는 능력 그 자체를 크게 저하시킨다는 것을 보여주었다. 학습된 자기 평가는 분포 외 (Out-of-distribution) 영역에도 일반화되어, 추론 시 로컬/클라우드 배분 판단에 실제로 도움이 되었다고 한다.

즉, 무엇을 말하고 싶은 것인가. 「모델에게 스스로 풀 수 있는지 물어본 뒤 배분한다」는 설계는, 질문 방식을 잘못 선택하면 역효과를 낳는다. 가공되지 않은 모델의 자기 신고는 과신을 포함하며, SFT로 자기 신고 능력만 단련하면 정작 중요한 알맹이가 떨어진다.

횡단 테마: 추론 트레이스(Reasoning Trace)는 제어 신호가 되지 않는다

세 편의 논문은 상태 추적의 붕괴, 행동과의 괴리, 자기 과신이라는 서로 다른 고장 모드(Failure Mode)를 보고하고 있다. 하지만 원인을 따라가면 하나의 지점에 도달한다. 모두 「모델의 내부 상태(추론의 내용)를 그대로 신뢰할 수 있는 신호로 취급했기」 때문에 망가진 것이다.

지평(Horizon)에 관한 논문은 「내부에 상태를 계속 유지하게 하면 용량 문제로 붕괴한다」고 말하고, 충실도(Faithfulness)에 관한 논문은 「내부의 추론과 외부의 행동은 어긋난다」고 말하며, 자기 평가에 관한 논문은 「내부의 자신감은 믿을 수 없다」고 말한다. 공통적으로 부정되고 있는 것은 추론 트레이스를 제어 신호(오케스트레이션의 판단 재료)로 사용하는 설계다.

설계의 재구성: 어디를 외부로 넘길 것인가

그렇다면 만드는 쪽은 어떻게 움직여야 하는가. 공통된 함의는 「내부에 의존하고 있는 부분을 검증 가능한 외부로 넘기는 것」이다. 구체적으로는 네 가지가 있다.

첫째, 상태를 외부 스토어로. 매 단계의 상태를 모델의 문맥 (Context) 안에서만 추적하게 하지 않고, 스크래치패드 (Scratchpad)나 DB, 툴 측의 메모리에 기록하여 다시 읽어온다. 지평의 용량 상한을 회피하는 가장 직접적인 방법이다.

둘째, 긴 태스크를 지평보다 짧게 나눈다. 하나의 추론이 19~~31 스텝을 넘어설 것 같다면, 20 스텝 미만의 서브 태스크로 분할하고 상태 추적 그 자체는 툴에 위임한다. 논문에서 나타난 86~~94% 대 24~42%의 차이는 바로 이 설계의 차이 그 자체다.

셋째, 검증은 추론 트레이스가 아닌 실행 결과로 수행한다. 「모델이 어떻게 생각했는가」를 평가 지표로 삼지 않고, 코드라면 타입 체크와 테스트, 데이터 조작이라면 실제 쿼리 결과와 같이 외부에서 검증할 수 있는 신호로 정오를 판정한다. 충실도의 격차가 존재하는 이상, 사고 과정의 평가는 믿을 수 없다.

넷째, 배분은 단련된 자기 평가로 수행한다. 로컬과 클라우드, 혹은 즉답과 툴 위임을 전환할 때, 가공되지 않은 모델의 자기 신고가 아니라 RL로 단련된 CSA와 같은 신호를 사용한다. 적어도 과신이 포함될 것을 전제로 임계값 (Threshold)을 보수적으로 설정한다.

예측: 오케스트레이터 (Orchestrator)의 가치는 어디로 이동할 것인가

여기서부터는 나의 견해다.

하나. 2026년 후반의 에이전트 프레임워크는 「추론을 얼마나 길게 가져갈 수 있는가」를 통한 차별화에서, 「결정론적 지평을 어떻게 측정하고 툴 위임을 어떻게 자동화할 것인가」를 통한 차별화로 축이 이동할 것이다. 길게 생각하게 만드는 경쟁은 상태 추적 측면에서 수지가 맞지 않는다는 것이 수치로 드러났다. 오케스트레이터의 가치는 추론의 양이 아니라 지평의 관리로 옮겨간다.

둘. 추론 트레이스를 평가·모니터링하는 계열 (트레이스를 LLM이 채점하게 하는 LLM-as-judge 방식 등)은 충실도의 격차라는 신뢰성 문제에 정면으로 부딪힌다. 「사고방식이 올바른 것 같은가」를 보는 모니터링에서, 「외부에서 검증 가능한 결과가 올바른가」를 보는 모니터링으로 평가의 중심이 이동한다.

둘 다 틀릴 수도 있다. 그럼에도 추론 트레이스를 신호로서 과신하지 않는다는 축은 가지고 있어 손해 볼 것이 없을 것이다.

요약

「생각하게 할수록 똑똑해진다」는 짧은 추론에서는 맞다. 하지만 상태 추적에서는 19~31 스텝에서 역전되며, 행동과의 괴리가 발생하고, 자기 평가는 과신으로 흐른다. 설계 지침은 단순하다. 내부의 추론을 신호로서 너무 믿지 말고, 상태·검증·배분을 검증 가능한 외부로 넘겨라. 나는 이 세 편의 논문을 읽고, 에이전트의 「생각하게 하는 법」보다 「넘기는 법」을 먼저 설계하는 순서로 전환하려고 생각 중이다. 여러분은 어디를 외부로 넘기고 계시는가?

Sources

결정론적 지평: 확장된 추론이 실패하고 도구 위임이 필요해지는 시점 — https://arxiv.org/abs/2606.00376
추론하는 대로가 아니라 말하는 대로 수행하기: LLM 에이전트의 충실도 격차(Faithfulness Gap) 위치 파악 — https://arxiv.org/abs/2606.00476
능력 자기 평가: LLM에게 자신의 한계를 알게 하는 법 — https://arxiv.org/abs/2606.00251