Agentick Benchmark: GPT-5 Mini가 0.309로 최고점을 기록했지만, 특정 에이전트 패러다임은 지배적이지 않음
요약
Agentick은 RL, LLM, VLM 및 하이브리드 에이전트를 포괄적으로 평가하는 통합 벤치마크로, 37가지 태스크에서 다양한 아키텍처를 비교합니다. GPT-5 mini가 0.309의 오라클 정규화 점수(ONS)로 최고점을 기록했지만, 특정 에이전트 패러다임이 지배적이지 않으며 ASCII 관찰값이 자연어보다 우수한 경향을 보입니다. 이 벤치마크는 파운데이션 모델의 순차적 의사결정 능력 격차를 확인하고, 향후 RL 후 학습(Post-Training) 연구 방향을 제시합니다.
핵심 포인트
- Agentick은 RL, LLM, VLM 등 다양한 에이전트 패러다임을 통합적으로 평가하는 벤치마크입니다.
- GPT-5 mini가 현재 최고 성능(0.309 ONS)을 기록했으나, 특정 아키텍처의 절대적 우위는 확인되지 않았습니다.
- 에이전트 관찰값으로서 ASCII 출력이 자연어보다 일관되게 높은 성능을 보였습니다.
- 벤치마크는 파운데이션 모델이 순차적 의사결정 능력에서 여전히 격차가 있음을 보여주며, RL 후 학습의 중요성을 강조합니다.
Agentick 벤치마크는 RL, LLM, VLM 및 하이브리드 에이전트를 37가지 태스크에서 평가합니다. GPT-5 mini가 0.309 ONS로 선두를 차지했지만, 특정 패러다임은 지배적이지 않습니다. ASCII가 자연어보다 우수합니다.
Agentick 벤치마크는 RL, LLM, VLM, 하이브리드 및 인간 에이전트를 37가지 태스크에서 비교했습니다. GPT-5 mini가 0.309의 오라클 정규화 점수로 선두를 차지했지만, 특정 패러다임은 지배적이지 않습니다.
주요 사실:
- 6가지 능력 범주에 걸친 37개의 절차적으로 생성된 태스크
- 90,000회 이상의 에피소드 동안 평가된 27개 에이전트 구성
- GPT-5 mini가 0.309의 오라클 정규화 점수로 선두를 차지함
- Reasoning harness가 LLM 성능을 3~10배 향상시킴
- ASCII 관찰 결과가 모든 에이전트에서 자연어보다 우수함
Google DeepMind와 Université de Montréal의 연구원들이 순차적 의사 결정 에이전트를 위한 통합 벤치마크인 Agentick을 공개했습니다. T
이러한 작업들에서입니다. 놀랍게도, ASCII 관찰값은 모든 에이전트 유형에 걸쳐 자연어 관찰값을 일관되게 능가하며, 풍부한 표현이 항상 도움이 된다는 가설에 도전합니다. 에이전트 아키텍처를 위한 만능 해결책 (Silver Bullet) Agentick의 설계는 에이전트 평가의 파편화를 명시적으로 다룹니다. 기존 벤치마크는 종종 하나의 패러다임을 선호합니다. 즉, Gym 환경에서의 RL 또는 정적 QA에서의 LLM입니다. 이로 인해 패러다임 간 비교가 불가능해집니다. Agentick은 단일 Gymnasium 호환 인터페이스, 모든 작업을 위한 오라클 참조 정책, 사전 구축된 SFT 데이터셋, 그리고 실시간 리더보드를 제공합니다 [논문에 따르면]. 이 벤치마크의 능력 분해 구조는 서로 다른 아키텍처가 서로 다른 하위 기술에서 탁월함을 보여준다는 것을 밝혀냅니다. RL 정책과 LLM 추론을 결합한 하이브리드 에이전트는 유망하지만, 여전히 각자의 영역에서 전문화된 에이전트보다 뒤떨어집니다.
RL 후 학습 (Post-Training)에 대한 시사점 Agentick은 사전 구축된 SFT 데이터셋을 함께 제공하여, 순차적 환경에서의 파운데이션 모델(foundation model)의 RL 후 학습을 위한 훈련장 역할을 합니다. 이는 최근 연구에서 확인된 격차를 직접적으로 다룹니다. 즉, 파운데이션 모델은 RL-from-scratch 에이전트가 가진 강력한 순차적 의사결정 능력이 부족하다는 것입니다. 논문에서는 가장 성능이 좋은 에이전트인 GPT-5 mini의 오라클 정규화 점수(ONS) 0.309조차도 개선할 여지가 많다고 언급합니다. 오라클 정규화 점수 1.0은 완벽한 성능을 의미하므로, 현재 에이전트들은 최적 행동의 3분의 1 미만을 달성하고 있습니다.
핵심 요약 (Key Takeaways) Agentick bench
mark은 37개 태스크에서 RL, LLM, VLM 및 하이브리드 에이전트를 평가합니다. GPT-5 mini가 0.309 ONS로 선두를 차지했지만, 어떤 패러다임도 지배적이지 않습니다. ASCII가 자연어보다 우수합니다. 주목할 점: 더 많은 연구소들이 결과를 제출함에 따라 Agentick 리더보드 업데이트를 주시하십시오. 핵심 지표는 6개월 이내에 어떤 에이전트가 0.5 ONS를 넘어서는지, 그리고 하이브리드 RL-LLM 아키텍처가 계획 태스크에서 PPO와 격차를 좁히는지 여부입니다. gentic.news에 최초 게재됨
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기