arXiv논문2026. 06. 30. 11:04

Complexity Ceiling Benchmark: 깊이 확장(Depth Scaling)에 따른 순차적 추론의 다중 도메인 평가

요약

언어 모델의 추론 단계가 증가함에 따라 성능이 저하되는 양상을 평가하는 Complexity Ceiling Benchmark(CCB)를 제안합니다. 실험 결과, 모델들은 도메인에 따라 서로 다른 성능 한계치를 보이며 기하급수적인 성능 저하 패턴을 나타냅니다.

핵심 포인트

추론 단계(N) 증가에 따른 모델 성능의 기하급수적 저하 패턴 발견
도메인별로 확연히 구분되는 성능 한계치(Ceiling) 존재 확인
추론 오류 발생 시점(k*)은 파라미터 수보다 도메인 내 정확도와 더 밀접함
상세 상태 추적 유도가 모델의 추론 한계치를 근본적으로 개선하지 못함

우리는 언어 모델의 추론 능력이 요구되는 순차적 단계(sequential steps)의 수가 증가함에 따라 어떻게 저하되는지를 통제된 환경에서 평가하는 Complexity Ceiling Benchmark (CCB)를 소개합니다. CCB는 작업의 의미론적 내용(semantic content)을 고정하고, 구조적으로 구별되는 세 가지 영역인 근거 기반 공간 상태 추적(grounded spatial state-tracking), 추상적 기호 포인터 조작(abstract symbolic pointer manipulation), 그리고 이행적 관계 추론(transitive relational inference)에 대해 깊이 $N \in {5, \dots, 50}$만을 변화시킵니다. 5개의 프론티어(frontier) 및 오픈 웨이트(open-weight) LLM을 대상으로 6,000회의 실험을 수행한 결과, 도메인별로 확연히 구분되는 한계치(ceiling)를 가진 일관된 기하급수적 단계별 저하(geometric per-step decay) 패턴을 발견했습니다. 처음 두 영역에서는 가장 강력한 모델들이 $N=50$까지 $p_d > 0.92$를 유지했습니다. 반면 세 번째 영역에서는 모든 모델이 $N=5$ 이전에 붕괴되었으며, 가장 우수한 모델조차 $p_d=0.863$임에도 불구하고 50% 성공 지평(success horizon)이 $H_{0.5} \sim 4.7$ 단계에 불과했습니다. 추적 수준의 지표인 TFBC(Trace-level metric)를 통해 벤치마크 전체 정답의 14.5%가 잘못된 중간 추론을 거쳐 도달했음을 보여줍니다. 강제적인 상세 상태 추적(Forced verbose state-tracking)은 한계치를 변화시키지 못했습니다 (McNemar $p=1.000$). 또한 추론이 처음으로 어긋나는 평균 단계인 $k^*$는 파라미터 수(parameter count)보다 도메인 내 정확도를 더 잘 예측합니다. CCB와 기하급수적 저하 모델은 모델의 장기 지평 추론 프로필(long-horizon reasoning profile)을 작업군별로 해석 가능한 하나의 숫자로 요약해 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Complexity Ceiling Benchmark: 깊이 확장(Depth Scaling)에 따른 순차적 추론의 다중 도메인 평가

요약

핵심 포인트

댓글