해결하지 말고 유도하라: 대규모 코드 에이전트를 위한 소형 비평(Critic) 모델 학습
요약
코드 에이전트의 전략적 추론 능력을 향상시키기 위해 궤적 내부 피드백을 제공하는 소형 비평(Critic) 모델 학습법을 제안합니다. 이 방식은 기존 사후 평가 방식과 달리 에이전트를 유도하며, 강력한 교사 모델 대비 훨씬 저렴한 비용으로 성능을 높일 수 있습니다.
핵심 포인트
- 에이전트 동결 후 궤적 내 피드백을 제공하는 소형 비평 모델 활용
- SWE-bench Verified에서 에이전트 성능의 유의미한 향상 입증
- 강력한 교사 모델 대비 30~92배 저렴한 비용 효율성
- 궤적 길이를 단축시켜 정확도와 비용 효율성을 동시에 개선
엔드 투 엔드(End-to-end) 코드 에이전트 학습은 자원 집약적이며, 코드 문제를 해결하는 데 필요한 전략 수준의 추론(strategy-level reasoning)에서 정체 현상을 보입니다. 이는 코드 수준의 실행(code-level execution)과 전략 수준의 추론을 공동으로 최적화할 경우, 후자가 충분히 발달하지 않은 채 남겨지기 때문입니다. 대신, 우리는 에이전트를 동결(freeze)하고 해당 신호를 제공할 비평(critic) 모델을 추가합니다. 기존의 코드 비평 모델들은 에이전트를 유도하기보다는 완료된 궤적(trajectories)에 점수를 매기는 사후적(post-hoc) 방식이었습니다. 반면, 우리는 지도 미세 조정(Supervised Fine-Tuning, SFT)을 통해 궤적 내부의 피드백(intra-trajectory feedback)을 제공하는 소형 비평 모델을 학습시킵니다. SWE-bench Verified에서 CWM-32B 궤적을 통해 학습된 비평 모델은 두 개의 미학습 에이전트로 전이되었으며(+3.0에서 +3.8 포인트 이득), 말뭉치(corpus)에 타겟 에이전트의 궤적을 추가할 경우 CWM-32B에서 +3.8, 두 개의 Qwen 에이전트에서 +4.4에서 +5.2의 이득을 보였습니다. 이때 비평 모델의 비용은 강력한 교사(teacher) 모델보다 30~92배 더 저렴합니다. Qwen3-Next-80B-A3B의 경우, 비평 모델이 궤적의 길이도 단축시키기 때문에 비평 가이드 시스템은 에이전트 단독 사용 시보다 더 정확하며(25.2% vs. 20.8%), 더 저렴합니다($0.04 vs. $0.11). 우리의 결과는 잘 학습된 소형 비평 모델이 에이전트 학습 스케일링(scaling)을 위한 실용적인 보완책임을 보여줍니다. 코드: https://github.com/shubhamrgandhi/critic-training. 데이터 및 모델: https://huggingface.co/collections/shubhamrgandhi/critic-training-for-code-agents
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기