본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:09

AgentFloor: 소형 오픈 웨이트 모델이 도구 사용 계단에서 얼마나 높은 곳에 도달할 수 있는가?

요약

본 논문은 생성형 에이전트 시스템의 실질적인 설계 문제를 다루며, 모든 작업을 거대 모델에 의존하는 것이 비효율적임을 지적한다. 연구진은 'AgentFloor'라는 30가지 작업으로 구성된 계단식 벤치마크를 개발하여, 소규모 오픈 웨이트 모델이 일상적이고 구조화된 도구 사용 작업에서 매우 강력한 성능을 보인다는 것을 입증했다. 그 결과, 에이전트 시스템은 대부분의 작업을 소형 모델로 처리하고, 장기 계획이나 복잡한 제어가 필요한 좁은 영역에만 대규모 프론티어 모델을 사용하는 하이브리드 접근 방식이 가장 효율적임을 시사한다.

핵심 포인트

  • 소형 오픈 웨이트 모델(0.27B~32B)은 일상적인 구조화된 도구 사용 작업에서 매우 높은 성능을 보여, 에이전트 파이프라인의 대부분을 담당할 수 있다.
  • 가장 강력한 오픈 웨이트 모델은 GPT-5와 유사한 성능을 보이지만, 실행 비용과 속도 면에서 훨씬 효율적이다.
  • 대규모 프론티어 모델(GPT-5)은 장기 지평 계획이나 지속적인 제약 조건 추적이 필요한 복잡하고 깊은 작업에 여전히 이점을 가진다.
  • 에이전트 시스템 설계의 실용적 원칙은 '소형 모델 기반의 광범위한 기본 레이어'와 '대규모 모델 기반의 좁고 깊은 전문 기능'을 결합하는 하이브리드 접근 방식이다.

생성형 에이전트 시스템은 사용자 요청당 많은 모델 호출을 수행하며, 그중 대부분은 짧고 구조화되어 있으며 일상적인 작업입니다. 이는 기존 평가에서 직접적으로 답변하지 않는 실용적 라우팅 문제를 제기합니다: 에이전트 워크플로우의 어떤 부분이 대규모 프론티어 지능이 필요한지, 그리고 어떤 부분은 소형 모델로 처리할 수 있는지를 구분해야 합니다.

우리는 AgentFloor라는 결정론적 30 가지 작업 벤치마크를 소개합니다. 이는 명령 수행, 도구 사용, 다단계 조정, 지속적 제약 조건 하의 장기 지평 계획 등 다양한 능력을 포함하는 6 층 계단 구조입니다. 우리는 GPT-5 와 함께 파라미터 수 0.27B 에서 32B 까지 16 개의 오픈 웨이트 모델을 16,542 회 점수화된 실행으로 평가했습니다.

우리의 결과는 모델 필요성의 명확한 경계를 보여줍니다. 소형 및 중형 오픈 웨이트 모델은 실제 에이전트 파이프라인에서 지배적인 단기 지평 구조화된 도구 사용 작업의 대부분을 이미 충분히 처리할 수 있으며, 종합적으로 가장 강력한 오픈 웨이트 모델은 우리 벤치마크에서 GPT-5 와 동일한 성능을 보이지만 실행 비용과 시간이 훨씬 저렴하고 빠릅니다.

장기 지평 계획 작업에서는 프론티어 모델이 여전히 이점을 가지며, 이는 지속적 조정과 많은 단계에 걸쳐 신뢰할 수 있는 제약 조건 추적을 필요로 할 때 가장 명확하게 나타납니다. 그러나 양쪽 모두 강력한 신뢰성을 달성하지는 못했습니다. 또한 우리는 이 경계가 규모만으로 설명되지 않는다는 것을 발견했습니다: 일부 실패는 표적 개입으로 해결되지만, 그 효과는 모델 특이적이기 보편적이지 않습니다.

이러한 결과는 에이전트 시스템의 실용적 설계 원칙을 시사합니다: 일상적인 작업의 광범위한 기반에는 소형 오픈 웨이트 모델을 사용하고, 더 깊은 계획과 제어를 필요로 하는 좁은 클래스의 작업에는 대규모 프론티어 모델을 사용하세요. 우리는 벤치마크, 하르네스 (harness), 스윕 구성, 그리고 실행 코퍼스 전체를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0