AgentFloor: 소형 오픈 웨이트 모델이 도구 사용 계단에서 얼마나 높은 곳에 도달할 수 있는가?

생성형 에이전트 시스템은 사용자 요청당 많은 모델 호출을 수행하며, 그중 대부분은 짧고 구조화되어 있으며 일상적인 작업입니다. 이는 기존 평가에서 직접적으로 답변하지 않는 실용적 라우팅 문제를 제기합니다: 에이전트 워크플로우의 어떤 부분이 대규모 프론티어 지능이 필요한지, 그리고 어떤 부분은 소형 모델로 처리할 수 있는지를 구분해야 합니다.

우리는 AgentFloor라는 결정론적 30 가지 작업 벤치마크를 소개합니다. 이는 명령 수행, 도구 사용, 다단계 조정, 지속적 제약 조건 하의 장기 지평 계획 등 다양한 능력을 포함하는 6 층 계단 구조입니다. 우리는 GPT-5 와 함께 파라미터 수 0.27B 에서 32B 까지 16 개의 오픈 웨이트 모델을 16,542 회 점수화된 실행으로 평가했습니다.

우리의 결과는 모델 필요성의 명확한 경계를 보여줍니다. 소형 및 중형 오픈 웨이트 모델은 실제 에이전트 파이프라인에서 지배적인 단기 지평 구조화된 도구 사용 작업의 대부분을 이미 충분히 처리할 수 있으며, 종합적으로 가장 강력한 오픈 웨이트 모델은 우리 벤치마크에서 GPT-5 와 동일한 성능을 보이지만 실행 비용과 시간이 훨씬 저렴하고 빠릅니다.

장기 지평 계획 작업에서는 프론티어 모델이 여전히 이점을 가지며, 이는 지속적 조정과 많은 단계에 걸쳐 신뢰할 수 있는 제약 조건 추적을 필요로 할 때 가장 명확하게 나타납니다. 그러나 양쪽 모두 강력한 신뢰성을 달성하지는 못했습니다. 또한 우리는 이 경계가 규모만으로 설명되지 않는다는 것을 발견했습니다: 일부 실패는 표적 개입으로 해결되지만, 그 효과는 모델 특이적이기 보편적이지 않습니다.

이러한 결과는 에이전트 시스템의 실용적 설계 원칙을 시사합니다: 일상적인 작업의 광범위한 기반에는 소형 오픈 웨이트 모델을 사용하고, 더 깊은 계획과 제어를 필요로 하는 좁은 클래스의 작업에는 대규모 프론티어 모델을 사용하세요. 우리는 벤치마크, 하르네스 (harness), 스윕 구성, 그리고 실행 코퍼스 전체를 공개합니다.

Insights

AgentFloor: 소형 오픈 웨이트 모델이 도구 사용 계단에서 얼마나 높은 곳에 도달할 수 있는가?

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화