arXiv논문2026. 06. 08. 11:21

빠르게 생각하기: 프런티어 AI 모델의 No-CoT 작업 완료 시간 지평 추정

요약

프런티어 AI 모델이 명시적인 사고 사슬(CoT) 없이 수행하는 추론 능력을 측정하는 새로운 방법론을 제시합니다. 연구 결과, 모델의 No-CoT 작업 완료 시간 지평(TH)은 매년 두 배씩 증가하고 있으며, 향후 2030년에는 25분에 달할 것으로 예측됩니다.

핵심 포인트

CoT 없이 수행되는 모델의 내부 추론 능력 측정
작업 완료 시간 지평(TH) 및 추론 토큰 지평 개념 도입
프런티어 모델의 No-CoT 성능이 매년 급격히 성장 중
2030년까지 No-CoT TH가 25분에 도달할 가능성 제시

프런티어 (Frontier) AI 모델의 안전성을 보장하기 위한 많은 노력은 모델의 사고 사슬 (Chain-of-Thought, CoT) 추론을 모니터링하는 것에 의존합니다. 만약 모델이 명시적인 사고 토큰 (Thinking tokens) 없이 내부적으로 충분히 복잡한 추론을 수행할 수 있게 된다면, 이러한 감시 체계는 약화될 것입니다. 우리는 수학, 코딩, 퍼즐, 인과 관계 (Causality), 마음 이론 (Theory-of-mind), 전략적 추론 (Strategic reasoning)을 포함한 43개 벤치마크에 걸친 30,000개 이상의 질문 세트를 통해 프런티어 모델이 CoT 없이 얼마나 잘 추론하는지를 측정합니다. 모델을 인간과 비교하기 위해, 우리는 50% 작업 완료 시간 지평 (Task-completion Time Horizon, TH)을 추정합니다. 이는 모델이 50%의 성공률로 완료하는 작업에 대해 인간에게 필요한 시간을 의미합니다. 우리는 이를 50% 추론 토큰 지평 (Reasoning token horizon)으로 보완합니다. 이는 모델이 50%의 성공률로 해결하는 작업에 필요한 최소 o3-mini 추론 토큰 수입니다. 연구 결과, 프런티어 모델의 No-CoT 50% TH는 지난 6년 동안 매년 대략 두 배씩 증가해 왔으며, GPT-5.5의 TH는 3분을 넘어섰고 추론 토큰 지평은 1,500 토큰을 초과했습니다. 우리의 중앙값 추정치는 프런티어 No-CoT TH가 2028년까지 7분을 초과하고, 2030년까지 25분에 달할 수 있음을 예측하지만, 이러한 전망에는 상당한 불확실성이 수반됩니다. 우리는 프런티어 개발자들이 이를 명시적으로 추적할 것을 권장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

빠르게 생각하기: 프런티어 AI 모델의 No-CoT 작업 완료 시간 지평 추정

요약

핵심 포인트

댓글