AI 에이전트의 추론 및 도구 사용 능력 평가, VAKRA 분석
요약
VAKRA는 AI 에이전트가 실제 기업 환경과 유사한 복잡한 워크플로우를 얼마나 잘 수행하는지 평가하기 위해 개발된 실행 가능한 벤치마크입니다. 기존의 단일 스킬 테스트와 달리, VAKRA는 API 호출과 비정형 데이터 검색을 결합한 다단계 추론 능력을 측정합니다. 이 벤치마크는 62개 도메인에 걸쳐 8,000개 이상의 로컬 API를 활용하며, 에이전트가 복잡한 작업을 성공적으로 완료하는지 검증합니다. 논문에서는 VAKRA의 네 가지 주요 역량(API 체이닝, 대시보드 API 사용, 다단계 추론 등)을 분석하고, 모델들이 어떤 지점
핵심 포인트
- VAKRA는 AI 에이전트가 실제 기업 환경에서 복합적인 워크플로우를 수행하는 능력을 평가하는 실행 가능한 벤치마크입니다.
- 이 벤치마크는 API 호출과 비정형 데이터 검색을 결합한 다단계 추론(multi-step reasoning) 능력을 측정합니다.
- VAKRA의 첫 번째 역량은 BI API를 사용한 'API 체이닝'이며, 최대 12개의 도구 호출을 포함할 수 있습니다.
- 두 번째와 세 번째 역량은 대시보드 API를 활용하며, 특정 도메인에 맞는 적절한 API 선택 및 다단계 추론 능력을 요구합니다.
VAKRA: AI 에이전트의 복합적 문제 해결 능력 측정
최근 소개된 VAKRA는 AI 에이전트가 실제 기업 환경과 유사한 조건에서 얼마나 잘 추론하고 행동하는지 평가하기 위해 개발된 실행 가능한 벤치마크입니다. VAKRA는 단순히 고립된 스킬을 테스트하는 기존 방식과 달리, API 호출 및 문서 검색(retrieval)을 결합하여 복잡한 다단계 워크플로우를 수행할 수 있는지 측정합니다.
이 환경은 62개 도메인에 걸쳐 8,000개 이상의 로컬 API와 실제 데이터베이스로 구성되어 있습니다. 에이전트는 자연어 기반의 도구 사용 제약 조건 하에서 구조화된 API 상호작용과 비정형 검색을 결합한 3~7단계 추론 사슬(reasoning chain)을 수행해야 합니다.
VAKRA가 측정하는 네 가지 핵심 역량:
- API 체이닝 (API Chaining): BI API를 사용하여 데이터를 필터링하고 여러 도구를 순차적으로 연결하여 최종 답변에 도달하는 능력을 평가합니다. 이 과정은 1개부터 최대 12개의 도구 호출을 포함할 수 있습니다.
- 대시보드 API 선택 (Tool Selection using Dashboard APIs): 특정 도메인에서 가장 적합하고 정확한 REST API를 선택하는 능력이 중요합니다. 각 도메인은 평균 116개에 달하는 많은 도구를 가지고 있어, 에이전트가 방대한 옵션 속에서 올바른 도구를 골라내는 것이 핵심입니다.
- 다단계 추론 (Multi-Hop Reasoning): 여러 단계의 정보를 연결하고 종합하여 최종 결론을 도출하는 복잡한 사고 과정을 테스트합니다.
VAKRA는 모델들이 현재 얼마나 낮은 성능을 보이는지 보여주며, 이 블로그에서는 각 작업별 세부 데이터와 함께 관찰된 실패 모드(failure modes)에 대한 심층 분석을 제공하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기