philschmid/ai-agent-benchmark-compendium

이 포스트는 Function Calling (함수 호출) 및 Tool Use (도구 사용), General Assistant (일반 비서) 및 Reasoning (추론), Coding (코딩) 및 Software Engineering (소프트웨어 엔지니어링), 그리고 Computer Interactions (컴퓨터 상호작용)라는 네 가지 주요 카테고리로 분류된 50개 이상의 현대적 벤치마크에 대한 고수준의 개요를 제공합니다.

새로운 벤치마크가 나올 때마다 이 내용을 최신 상태로 유지하고 확장하고 싶습니다. Pull Request (PR) 또는 Issue를 남겨주세요.

BFCL은 광범위한 실제 환경에서 Large Language Models (LLMs, 대규모 언어 모델)의 function calling (또한 tool use라고도 함) 능력을 평가하기 위해 설계된 종합적인 벤치마크입니다. 이 벤치마크는 직렬(단순), 병렬 및 다회차(multi-turn) 상호작용을 포함한 다양한 시나리오에서 모델을 평가하며, 상태 유지형 다단계 환경에서의 추론, 메모리, 웹 검색 및 형식 민감도와 같은 agentic (에이전트적) 능력을 평가합니다.

링크: Paper | GitHub | Leaderboard | Dataset

16,000개 이상의 실제 RESTful API를 마스터하는 과정에서 Large Language Models (LLMs)를 평가하고 촉진하기 위해 설계된 대규모 벤치마크입니다. 이는 도구 사용을 위한 instruction-tuning (지시어 튜닝) 데이터셋으로 기능하며, Large Language Models (LLMs)의 일반적인 도구 사용 능력을 향상시키기 위해 ChatGPT를 사용하여 자동으로 생성되었습니다.

링크: Paper | GitHub | Leaderboard | Dataset

LLMs에서의 복잡한 function calling (함수 호출) 평가를 위해 특별히 설계된 벤치마크입니다. 이 벤치마크는 다섯 가지 핵심 측면의 도전적인 시나리오를 다룹니다: 단일 턴 내의 다단계 함수 호출, 사용자 제공 제약 조건이 포함된 함수 호출, 매개변수 값 추론, 긴 매개변수 값을 가진 호출, 그리고 128k의 긴 컨텍스트 길이(long-context length)를 요구하는 호출입니다.

링크: Paper | GitHub | Dataset

동적인 개방형 실제 시나리오에서 AI 에이전트를 테스트하기 위해 설계된 대화형 벤치마크입니다. 이 벤치마크는 특히 이커머스 및 항공 예약 도메인을 대상으로, 도메인별 정책을 엄격히 준수하고 일관된 행동을 유지하면서 시뮬레이션된 인간 사용자 및 프로그래밍 방식의 API와 상호작용하는 에이전트의 능력을 구체적으로 평가합니다.

링크: Paper | GitHub | Leaderboard

주어진 프롬프트(Prompt)를 기반으로 LLM이 함수를 올바르게 호출하는 능력을 테스트합니다. 이는 50개의 함수 호출(Function Calling) 문제로 구성되어 있으며, 각 문제는 ClickUp의 통합 엔드포인트(Integration Endpoints)에서 영감을 얻은 실제 API 구조를 반영한 8개의 함수 스키마(Function Schema) 중 하나를 사용하여 해결하도록 설계되었습니다.

링크: GitHub

실제 API 문서에 대한 이해를 바탕으로, 인간의 요구사항을 충족하기 위해 단계별 API 호출을 계획하고, 관련 API를 검색하며, API 호출을 정확하게 실행하는 에이전트의 능력을 평가합니다. 수천 개의 API를 활용한 2,200개 이상의 대화 데이터가 특징입니다.

현실적인 다회차(Multi-turn) 인간-에이전트 상호작용, 특히 모바일 어시스턴트 사용 사례를 시뮬레이션하여 LLM의 함수 호출 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 불완전한 지시사항이나 사용자 의도의 변화와 같은 도전적인 상황에서 모델을 테스트합니다.

링크: Paper | GitHub | Dataset

Dria Pythonic Agent Benchmark는 LLM의 함수 호출 능력을 평가하기 위해 설계된 종합적인 벤치마크입니다. 특히 100개의 문제를 통해 Pythonic 함수 호출 방식과 전통적인 JSON 기반 방식 간의 모델 성능을 구체적으로 비교합니다.

링크: Blog

단회차(Single-turn) 함수 호출 작업에서 LLM의 숙련도를 평가하기 위해 설계된 벤치마크입니다. 단순 호출, 병렬 호출, 그리고 한 함수의 출력이 다른 함수의 입력으로 사용되는 중첩(Nested) 함수 호출을 포함한 다양한 복잡도를 평가합니다.

링크: GitHub | Leaderboard

Salesforce AI Research에서 개발한 일련의 대규모 액션 모델(Large Action Models, LAMs)로, 함수 호출 및 AI 에이전트 작업에 특화되어 최적화되었습니다. 이 모델들은 다양한 환경에서 AI 에이전트의 일반화 능력과 성능을 향상시키도록 설계되었습니다.

LLM의 함수 호출 능력을 향상시키기 위해 특별히 맞춤 설계된, 정확하고 복잡하며 다양한 도구 학습(Tool-learning) 데이터를 생성하도록 세심하게 설계된 자동화된 에이전트 파이프라인(Agentic Pipeline)입니다.

링크: Paper

단일 서버 환경의 한계를 극복하고, 실제 시나리오에서 대규모 모델 컨텍스트 프로토콜 (Model Context Protocol, MCP) 툴셋을 탐색하고 효과적으로 활용하는 LLM 에이전트의 능력을 평가하기 위해 설계된 종합적인 벤치마크입니다.

링크: Paper | GitHub | Leaderboard | Dataset

시뮬레이션에 의존하는 대신 금융 분석 및 브라우저 자동화와 같은 도메인을 아우르는 실제 모델 컨텍스트 프로토콜 (Model Context Protocol, MCP) 서버와의 직접적인 상호작용을 통해 AI 에이전트 및 LLM을 개발, 테스트 및 평가하기 위한 종합적인 프레임워크이자 벤치마크입니다.

링크: Paper | GitHub | Leaderboard

범용 AI 어시스턴트 (General AI Assistants)를 평가하기 위해 설계된 획기적인 벤치마크로, 인간에게는 개념적으로 단순하지만 대부분의 고급 AI 시스템에는 상당히 도전적인 실제 질문들을 제시합니다. 이는 AI 모델이 추론 (Reasoning), 멀티모달 (Multi-modality) 처리, 웹 브라우징 및 숙련된 도구 사용을 포함한 근본적인 능력들의 조합을 입증할 것을 요구합니다.

링크: Paper | Leaderboard | Dataset

자율 에이전트 (Autonomous Agents)로 작동할 때 LLM의 추론 및 의사 결정 능력을 철저하게 평가하기 위해 설계된 다차원적이고 진화하는 벤치마크입니다. 운영 체제 (Operating System), 데이터베이스 (Database), 웹 쇼핑 (Web Shopping)을 포함한 8개의 서로 다른 환경을 포괄합니다.

링크: Paper | GitHub | Leaderboard | Dataset

웹 에이전트가 현실적이고 시간이 많이 소요되는 작업을 자동으로 해결하는 능력을 평가하기 위해 설계된 도전적인 벤치마크입니다. 여러 도메인에 걸쳐 개방된 웹을 탐색하고 258개의 서로 다른 웹사이트에서 525개 이상의 페이지와 상호작용해야 하는 214개의 작업으로 구성됩니다.

링크: Paper | GitHub | Leaderboard | Dataset

모델이 암기된 정답이 아닌 새로운 문제로 테스트되도록 보장하기 위해 최신 정보 소스로부터 새로운 질문을 정기적으로 출시하는, LLM을 위한 도전적이고 오염 없는 (Contamination-free) 벤치마크입니다.

링크: Paper | GitHub | Leaderboard | Dataset

광범위한 학문 분야에 걸쳐 2,500개의 전문가 수준 학술 질문을 포함하는 매우 도전적인 멀티모달 (Multi-modal) 벤치마크로, 모델을 인간 지식의 절대적 최전선에서 테스트하고 단순한 사실 회상 (Factual recall)이 아닌 진정한 추론 (Reasoning) 능력을 요구하도록 설계되었습니다.

링크: Paper | GitHub | Leaderboard | Dataset

CBRNE (화학, 생물, 방사능, 핵, 폭발물) 및 정치적 폭력과 같은 영역에서 전문가가 제작한 적대적 프롬프트 (Adversarial prompts)를 사용하여, 국가 안보 및 공공 안전과 관련된 잠재적 오용에 대한 LLM 안전 장치 (Safeguards)의 견고성을 평가하도록 설계된 벤치마크입니다.

링크: Paper | Leaderboard

사실적 정확성 (Factual accuracy)과 정직성 (Honesty)을 분리하여 LLM의 정직성을 평가하는 것을 목표로 합니다. 이 벤치마크는 모델이 거짓말을 하라는 압박을 받을 때 자신이 확립한 신념을 의도적으로 부정하는지 측정합니다.

링크: Paper | GitHub | Leaderboard

짧고 사실을 찾는 질문에 답하는 LLM의 능력을 평가하기 위해 설계된 사실성 (Factuality) 벤치마크입니다. 모델이 "자신이 무엇을 알고 있는지"를 얼마나 잘 파악하는지 측정하고, 단일하고 논쟁의 여지가 없는 답변을 통해 "환각 (Hallucinations)" 또는 사실적으로 틀린 출력을 식별하는 것을 목표로 합니다.

링크: Paper | GitHub | Dataset

LLM의 단문 사실성을 평가하기 위해 설계된 1,000개의 프롬프트 벤치마크로, 엄격한 필터링 과정을 통해 노이즈가 있는 레이블 (Noisy labels) 및 주제적 편향 (Topical biases)과 같은 기존 SimpleQA 벤치마크의 한계를 해결하기 위해 개발되었습니다.

링크: Paper | Leaderboard | Dataset

LLM이 사실적으로 정확하고 제공된 문맥 문서 (Context documents)에 엄격하게 "근거를 둔 (Grounded)" 장문 응답을 생성하는 능력을 평가하여 환각을 완화합니다. 작업은 모델이 최대 32,000 토큰 길이의 문서에만 기반하여 응답을 생성할 것을 요구합니다.

링크: Paper | GitHub | Leaderboard | Dataset

비즈니스 도메인 전반에 걸쳐 LLM 에이전트 (Agents)에 대한 종합적인 성능 지표를 제공합니다.

실제 소프트웨어 엔지니어링 (Software Engineering) 문제를 해결하는 능력을 바탕으로 LLM 및 AI 에이전트 (Agents)를 평가하기 위한 벤치마크입니다. 12개의 인기 있는 Python 저장소 (Repositories)에서 가져온 GitHub 이슈 (Issues)로부터 추출된 2,294개의 문제로 구성되어 있습니다. 과제는 해당 이슈를 해결하는 패치 (Patch)를 생성하는 것입니다.

링크: Paper | GitHub | Leaderboard | Dataset

SWE-bench Verified는 기존 SWE-bench 데이터셋의 인간 검증 (Human-validated) 서브셋으로, AI 모델이 실제 소프트웨어 엔지니어링 문제를 해결하는 능력을 평가하는 500개의 샘플을 포함하고 있습니다. 평가의 신뢰성을 높이기 위해 SWE-bench Verified는 OpenAI와 협력하여 제작되었으며, 전문 소프트웨어 개발자들이 각 샘플을 검토하여 이슈 설명이 명확하게 지정되었는지와 적절한 단위 테스트 (Unit tests)가 포함되었는지를 확인했습니다.

링크: Blog | Leaderboard

실제 소프트웨어 엔지니어링 문제를 해결하는 능력을 바탕으로 LLM 및 AI 에이전트 (Agents)를 평가하기 위한 벤치마크입니다. 41개의 다양한 전문 저장소 (Repositories)에서 가져온 1,865개의 문제로 구성되어 있습니다. 과제는 해당 이슈를 해결하는 패치 (Patch)를 생성하는 것입니다. 276개의 추가적인 비공개 태스크 (Private tasks)가 포함된 숨겨진 테스트 세트 (Hidden Test set)가 존재합니다.

링크: Paper | GitHub | Leaderboard | Dataset

코드 관련 태스크 (Tasks)에 대한 LLM을 평가하기 위한 총체적이고 오염 없는 (Contamination-free) 벤치마크입니다. 경쟁 프로그래밍 (Competitive programming) 플랫폼으로부터 새로운 문제를 지속적으로 수집하며, 자가 수정 (Self-repair), 코드 실행 (Code execution), 테스트 출력 예측 (Test output prediction)과 같은 능력을 평가합니다.

링크: Paper | GitHub | Leaderboard

다양한 프로그래밍 태스크 (Tasks)와 언어에 걸쳐 AI 코딩 에이전트 (Coding agents)를 평가하기 위해 설계된 다국어 (Multi-language) 벤치마크입니다. Java, JavaScript, TypeScript, Python을 아우르는 21개의 실제 저장소 (Repositories)에서 선별된 2,000개 이상의 이슈 (Issues)를 포함하고 있습니다.

링크: Paper | GitHub | Leaderboard

LLM이 기존 코드베이스 (Codebase)를 얼마나 효과적으로 편집, 리팩터링 (Refactor), 기여할 수 있는지 측정하기 위해 설계된 실무 평가 세트입니다. 이 벤치마크에는 코드 편집 (Code editing) 벤치마크, 도전적인 리팩터링 (Refactoring) 벤치마크, 그리고 다국어 (Polyglot) 벤치마크가 포함되어 있습니다.

링크: GitHub | Leaderboard

C++, Go, Java, JavaScript, Python, Rust를 포함한 여러 언어에 걸쳐 225개의 도전적인 Exercism 코딩 연습 문제를 테스트함으로써 LLM (Large Language Models)의 코딩 및 자기 수정 (Self-correction) 능력을 평가합니다.

링크: GitHub | Leaderboard

자율 에이전트 (Autonomous agents) 구축을 위한 독립적이고 자체 호스팅 가능한 웹 환경입니다. WebArena는 기능과 데이터가 실제 웹사이트와 유사한 네 가지 인기 카테고리로부터 웹사이트를 생성하며, 상위 수준의 명령 (High-level commands)을 해석하는 벤치마크를 도입합니다.

현실적이고 시각적으로 근거가 있는 (Visually grounded) 웹 작업에서 멀티모달 에이전트 (Multimodal agents)의 성능을 평가하기 위해 설계된 벤치마크입니다. 에이전트가 이미지-텍스트 입력을 정확하게 처리하고 웹사이트에서 동작을 실행해야 하는 910개의 새롭고 다양하며 복잡한 작업을 추가하여 WebArena를 확장했습니다.

AI 브라우저 에이전트의 성능을 평가하기 위해 설계된 벤치마크입니다. 452개의 라이브 웹사이트에 걸쳐 5,750개의 작업을 포함하며, 정보 검색 (READ) 작업과 상태 변경 (WRITE) 작업을 통해 에이전트의 역량을 차별화하여 평가합니다.

링크: Paper | GitHub | Dataset

텍스트 (HTML) 정보와 시각적 (스크린샷) 정보를 모두 통합하여, 다양하고 인기 있는 라이브 웹사이트 전반에 걸친 엔드 투 엔드 (End-to-end) 실세계 탐색 작업에서 대규모 멀티모달 모델 (LMMs, Large Multimodal Models) 및 웹 에이전트를 평가하기 위해 설계된 기초 벤치마크입니다.

링크: Paper | GitHub | Leaderboard

에이전트의 웹 브라우징 능력을 측정하기 위한 단순하지만 도전적인 벤치마크입니다. 찾기 어렵고 얽혀 있는 정보를 찾기 위해 인터넷을 지속적으로 탐색해야 하는 1,266개의 질문으로 구성되어 있습니다.

범용 웹 에이전트 (Generalist web agents)를 개발하고 평가하기 위한 종합적인 벤치마크입니다. 원본 데이터셋은 137개의 실제 웹사이트에서 수집된 2,000개 이상의 개방형 (Open-ended) 작업을 포함하며, 라이브 웹사이트에서의 성능을 평가하기 위한 변형 버전들도 포함되어 있습니다.

링크: Paper | GitHub | Leaderboard | Dataset

범용 웹 브라우징 AI 에이전트 (AI agents)를 평가하기 위한 포괄적인 벤치마크 스위트 (benchmark suite)로, 인간에게는 직관적이지만 AI에게는 까다롭도록 설계된 50개 이상의 대화형 챌린지 (interactive challenges)를 특징으로 합니다. 이 시스템은 독립적이고 격리된 (hermetic) 테스트 환경에서 작동합니다.

링크: Paper | GitHub | Leaderboard | Dataset

정책 준수와 안전이 무엇보다 중요한 실제 기업 환경에서 자율형 웹 에이전트 (autonomous web agents)의 안전성과 신뢰성을 평가하기 위해 특별히 설계된 벤치마킹 플랫폼입니다.

Windows, macOS, Ubuntu를 포함한 실제 운영 체제 (operating systems) 내에서 개방형 태스크 (open-ended tasks)를 수행하는 멀티모달 에이전트 (multimodal agents)를 벤치마킹하기 위한 최초의 확장 가능한 실제 컴퓨터 환경으로, 369개의 실제 세계 태스크를 특징으로 합니다.

복잡하고 멀티모달 (multimodal) 성격을 띠는 데스크톱 지향적 태스크에서 고급 GUI 내비게이션 (GUI-navigation) AI 에이전트를 평가하기 위한 벤치마크입니다. 인간에게는 쉽지만 AI에게는 도전적인 5단계의 복잡도와 9개 카테고리에 걸친 160개의 태스크를 특징으로 합니다.

Insights

philschmid/ai-agent-benchmark-compendium

요약

핵심 포인트

댓글

폭스바겐의 CARIZON과 Horizon Robotics, 중국에서 자율주행 파트너십 강화

기술주 실시간 중계: Google과 Tesla로 시작되는 빅테크 실적 발표 시즌

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)

폭스바겐의 CARIZON과 Horizon Robotics, 중국에서 자율주행 파트너십 강화

기술주 실시간 중계: Google과 Tesla로 시작되는 빅테크 실적 발표 시즌

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)