Firefly: 실제 API로부터 대규모 검증된 도구 호출 (Tool-Call) 데이터 생성 방법론

도구 호출 (Tool-calling) 에이전트를 학습시키기 위해서는 검증 가능한 레이블 (Verifiable labels)이 포함된 대규모 궤적 (Trajectory) 데이터가 필요하지만, 기존 방식들은 실제 API 동작과 동떨어진 환경을 합성하거나 검증을 위한 정답 (Ground-truth) 결과가 없는 태스크를 생성한다는 한계가 있습니다. 본 논문에서는 실제 MCP 서버로부터 검증된 도구 호출 데이터를 생성하는 파이프라인인 Firefly를 제안합니다. 우리의 핵심 통찰은 표준 합성 파이프라인을 역전시키는 것입니다. 즉, 태스크를 먼저 생성하고 그것이 해결 가능하기를 기대하는 대신, 먼저 강력한 LLM이 그래프 가이드 DAG (Directed Acyclic Graph, 유향 비순환 그래프) 구조를 따라 실제 API를 탐색하게 한 다음, 관찰된 결과로부터 태스크를 역방향으로 합성함으로써 구조적으로 레이블의 정확성을 보장합니다. 실제 세계의 방대한 도구 공간(약 1,000개의 도구)을 처리하기 위해, 우리는 쌍별 도구 그래프 (Pairwise tool graph)를 구축하고 서브 DAG (Sub-DAG)를 샘플링하여 의미론적으로 일관된 워크플로에 탐색을 집중시킵니다. 라이브 API의 환경 드리프트 (Environment drift) 문제를 해결하기 위해, 모든 탐색 결과를 캐싱하고 학습 및 평가 중에 이를 재현하는 검색 증강 시뮬레이터 (Retrieval-augmented simulator)를 구축하여, 완전한 오프라인 및 재현 가능한 RL (강화학습)을 가능하게 합니다. 이 파이프라인을 적용하여 240개의 서버와 993개의 도구에 걸친 5,144개의 검증된 태스크를 확보했습니다. Firefly를 통해 GRPO (Group Relative Policy Optimization)로 학습된 4B 파라미터 모델은 우리의 홀드아웃 (Held-out) 테스트 세트에서 Claude Sonnet 4.6과 대등한 성능을 보였으며, Tau2-Bench, MCPMark, MCP-Atlas를 포함한 여러 도구 호출 벤치마크에서 성능 향상을 입증했습니다.

Insights

Firefly: 실제 API로부터 대규모 검증된 도구 호출 (Tool-Call) 데이터 생성 방법론

요약

핵심 포인트

댓글

TopoBrick: 제로샷 빌딩 IoT 예측을 위한 외생 변수의 에이전트적 토폴로지 샘플링

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어

FootsiesGym: 2인 제로섬 불완전 정보 게임을 위한 격투 게임 벤치마크

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어

FootsiesGym: 2인 제로섬 불완전 정보 게임을 위한 격투 게임 벤치마크