arXiv논문2026. 06. 09. 10:43

GAIA에 미치는 Scaffold 효과: 통제된 비교 연구

요약

본 연구는 에이전트의 성능 측정 시 모델 자체의 능력과 스캐폴드(scaffold)의 영향력이 혼동되는 문제를 분석합니다. GAIA 벤치마크를 통해 다양한 스캐폴드 설계가 모델 성능에 미치는 격차를 통제된 조건에서 규명했습니다.

핵심 포인트

스캐폴드 선택만으로 모델 정확도가 최대 28%p 변동 가능
모델 성능이 높다고 해서 스캐폴드 민감도가 반드시 낮아지지는 않음
Anthropic 모델은 어려운 과업에서 구조화된 스캐폴드로 큰 이득을 얻음
에이전트 능력 수치는 스캐폴드 조건부 추정치임을 시사

발표된 에이전트 능력 점수(agent capability scores)는 모델이 할 수 있는 것과 해당 모델의 scaffold(스캐폴드)가 할 수 있게 해주는 것을 혼동하고 있으며, 이러한 유도 격차(elicitation gap)의 크기는 통제된 조건 하에서 제대로 규명되지 않았습니다. 본 연구는 세 가지 scaffold(ReAct, Planner-Actor-Rater 멀티 에이전트 설계, 그리고 planner-then-executor)를 대상으로, 세 곳의 제공사로부터 나온 다섯 가지 모델(Claude Opus 4.7, Sonnet 4.6, Haiku 4.5; Gemini 3.1 Pro Preview; GPT-5.5)에 대해 GAIA 검증 Level 1 및 Level 2에서 수행된 사전 등록된 통제 비교 연구입니다. 과업과 조건을 고정하고 질문당 세 번의 시도를 수행했습니다. scaffold 선택만으로도 단일 모델(Opus, Level 2, robust slice) 내에서 측정된 정확도가 최대 28%포인트까지 변동되었으며, 이는 scaffold 변화가 최소 10포인트의 격차를 만든다는 사전 등록된 가설을 확인시켜 줍니다. 더 유능한 모델일수록 scaffold 민감도가 낮을 것이라는 사전 등록된 예측은 방향성 측면에서 기각되었습니다. scaffold 효과는 모든 데이터셋 슬라이스에서 모델별로 크게 다르게 나타났으나, 가장 유능한 Anthropic 모델이 더 어려운 레벨에서 구조화된 scaffold로부터 가장 큰 이득을 얻었으며, 계층적 스케일링(tier-scaling)은 robust slice의 Level 1에서만 유지되었습니다. Level 2에서 ReAct 대비 멀티 에이전트의 이점은 Anthropic 제품군 내에서는 나타났으나, 제공사를 넘나드는 모델들 사이에서는 나타나지 않았습니다. 이는 능력 계층(capability tier)보다는 모델 제품군(model family)이 조건 변수임을 시사하며, 파일 읽기 과업에서 예측되었던 planner-executor의 이점은 거짓으로 판명되었습니다. 구조화된 scaffold는 더 적은 도구 호출(tool calls)을 수행하면서도 더 어려운 레벨에서 궤적 중간의 오류(mid-trajectory errors)로부터 더 자주 회복합니다. 또한 단일 셀(planner-then-executor를 사용하는 Gemini)이 두 레벨 모두에서 가장 저렴하며 Level 2에서 가장 정확했습니다. 이러한 결과는 단일 scaffold 기반의 능력 수치가 scaffold 조건부 추정치(scaffold-conditional estimates)임을 나타내며, 모델이 개선됨에 따라 유도 격차가 반드시 줄어드는 것은 아님을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GAIA에 미치는 Scaffold 효과: 통제된 비교 연구

요약

핵심 포인트

댓글