AutoLab: 프론티어 모델이 장기적 자동 연구 및 엔지니어링 과제를 해결할 수 있는가?
요약
장기적 반복 프로세스를 평가하기 위한 새로운 벤치마크 AutoLab을 소개합니다. 시스템 최적화 및 CUDA 커널 등 36개 과제를 통해 프론티어 모델의 지속적인 개선 능력을 측정하며, 모델의 성공은 초기 품질보다 반복적인 피드백 통합 능력에 달려 있음을 보여줍니다.
핵심 포인트
- 초장기 폐쇄 루프 최적화 평가를 위한 AutoLab 벤치마크 공개
- 단발성 응답이 아닌 지속적 반복 개선 능력을 핵심 지표로 설정
- 성공의 핵심은 초기 품질보다 끈기 있는 피드백 통합 능력
- 대부분의 모델이 장기 과제 수행 시 조기 종료되는 한계 노출
과학 및 엔지니어링의 발전은 근본적으로 변경 사항 제안, 실험 실행, 결과 측정, 그리고 결과물(artifacts)의 지속적인 개선을 포함하는 장기적(long-horizon) 반복 프로세스입니다. 그러나 기존의 프론티어 모델(frontier models)을 위한 벤치마크는 주로 단발성 응답(single-turn responses)이나 단기적 에이전트 궤적(short-horizon agent trajectories)을 평가하며, 긴 시간 범위에 걸친 지속적인 반복 개선의 어려움을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 초장기 폐쇄 루프 최적화(ultra long-horizon closed-loop optimization)를 위한 새로운 벤치마크인 AutoLab을 소개합니다. AutoLab은 시스템 최적화(system optimization), 퍼즐 및 챌린지(puzzle & challenge), 모델 개발(model development), 그리고 CUDA 커널 최적화(CUDA kernel optimization)라는 네 가지 다양한 영역에 걸쳐 전문가가 큐레이션한 36개의 현실적인 과제로 구성됩니다. 각 과제는 정확하지만 의도적으로 차선책인 베이스라인(baseline)에서 시작하며, 에이전트가 엄격한 실제 시간(wall-clock) 예산 내에서 이를 개선하도록 도전 과제를 부여합니다. 17개의 최첨단(state-of-the-art) 모델을 평가한 결과, 성공의 지배적인 예측 변수는 에이전트의 초기 시도 품질이 아니라, 반복적인 벤치마킹, 편집, 그리고 경험적 피드백(empirical feedback)을 통합하는 끈기임이 밝혀졌습니다. claude-opus-4.6은 강력한 장기 최적화 능력을 보여주었으나, 여러 폐쇄형(proprietary) 모델을 포함한 대부분의 프론티어 모델은 조기에 종료되거나 최소한의 진전만 보인 채 예산을 소진합니다. 이러한 결과는 자율 에이전트(autonomous agents)에 있어 시간 인지(time awareness)와 지속적인 반복(persistent iteration)의 중요성을 강조합니다. 우리는 진정으로 유능한 장기 에이전트를 향한 연구를 가속화하기 위해 전체 벤치마크, 평가 하네스(evaluation harness), 그리고 과제 결과물(task artifacts)을 오픈 소스로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기