언어 모델 추론 성능 향상을 위한 구두 과정 감독(VPS) 기법

대규모 언어 모델(LLM)의 추론 능력 향상 연구는 오랫동안 체인 깊이(chain depth), 샘플 폭(sample breadth), 그리고 학습된 단계 점수 계산기(learned step-scorers, PRMs) 등 세 가지 축에 집중해 왔습니다. 본 논문은 여기에 네 번째 핵심 축으로 '외부 구두 감독의 세분성(granularity of external verbal supervision)'을 도입하는 **Verbal Process Supervision (VPS)**라는 훈련이 필요 없는(training-free) 프레임워크를 제안합니다.

VPS는 더 강력한 슈퍼바이저가 제공하는 구조화된 자연어 비평(structured natural-language critique)을 활용하여, 모델이 반복적으로 '생성(generate)-비평(critique)-개선(refine)' 루프를 수행하도록 유도합니다. 이 과정은 최대 라운드 예산 $R$까지 진행될 수 있습니다.

VPS의 효과는 GPQA Diamond, AIME 2025, LiveCodeBench V6 등 다양한 벤치마크에서 입증되었습니다. 주요 결과는 다음과 같습니다:

GPQA Diamond: GPT-5.4 모델을 대상으로 R=4를 적용했을 때, VPS를 통해 94.9%의 성능을 달성하며 기울기 업데이트(gradient updates) 없이 기존 SOTA (94.1%)를 능가했습니다.
AIME 2025: 이 벤치마크에서 VPS는 약점 액터(weak-actor)의 점수를 11.7-26.7%에서 63.3-90.0%로 크게 향상시키는 '강력한 약자 구조(strong weak-actor rescue)'를 가능하게 했습니다 (최대 +63.3점 상승).
비교 성능: 동일 컴퓨팅 자원(matched compute)을 기준으로 비교했을 때, VPS는 기존의 Reflexion 대비 +8.5~+12.1점, 그리고 Self-Consistency@5 대비 GPQA에서 +5.0 pp, LiveCodeBench에서 +8.3 pp의 성능 향상을 보였습니다.

이러한 결과들은 비평의 세분성(critique granularity) 자체가 LLM 추론 능력 스케일링의 핵심 동인임을 명확히 보여줍니다. 또한, 모델의 성능은 슈퍼바이저와 액터 간의 역량 격차(capability gap)에 높은 상관관계($r=0.90$)를 보이며 증가하는 경향을 나타냈습니다. 다만, 오류가 언어적으로 표현될 수 없는 경우(예: 코드 합성 과정에서의 오류)에는 성능이 저하되는 현상도 관찰되어, 향후 하이브리드 형태의 구두-실행 가능(verbal-executable) 결합 방법론 개발의 필요성을 제기합니다.

결론적으로, 본 연구는 비평 세분성이라는 새로운 축을 제시하며 LLM 추론 능력 스케일링 패러다임을 확장하는 중요한 이정표를 마련했습니다.

Insights

언어 모델 추론 성능 향상을 위한 구두 과정 감독(VPS) 기법

요약

핵심 포인트

댓글

정의선 회장이 실리콘밸리에서 현대차를 자동차 회사라고 소개하지 않았음. "피지컬 AI 솔루션 기업으로 전환 중"이라고 못박음

이제 어떤 책이든 Claude의 스킬(skill)로 변환할 수 있습니다.

Jensen Huang의 행보: 글로벌 AI 공급망의 향후 5년을 결정짓다

Sony는 Bloodborne라는 게임을 소유하고 있습니다. 이는 역대 가장 높은 평가를 받은 게임 중 하나입니다. 그들은 11년 동안 이

정의선 회장이 실리콘밸리에서 현대차를 자동차 회사라고 소개하지 않았음. "피지컬 AI 솔루션 기업으로 전환 중"이라고 못박음

이제 어떤 책이든 Claude의 스킬(skill)로 변환할 수 있습니다.

Jensen Huang의 행보: 글로벌 AI 공급망의 향후 5년을 결정짓다

Sony는 Bloodborne라는 게임을 소유하고 있습니다. 이는 역대 가장 높은 평가를 받은 게임 중 하나입니다. 그들은 11년 동안 이