Firefly: 실제 API로부터 대규모 검증된 도구 호출 (Tool-Call) 데이터 생성 방법론
요약
Firefly는 실제 MCP 서버를 활용하여 검증 가능한 도구 호출(Tool-calling) 데이터를 생성하는 역방향 합성 파이프라인을 제안합니다. 태스크를 먼저 생성하는 대신 실제 API를 먼저 탐색한 후 태스크를 역으로 합성함으로써 데이터의 정확성을 보장하며, 환경 드리프트 문제를 해결하기 위해 검색 증강 시뮬레이터를 구축했습니다. 이 방법론으로 학습된 4B 모델은 Claude Sonnet 4.6과 대등한 성능을 기록하며 도구 호출 벤치마크에서 우수한 성능을 입증했습니다.
핵심 포인트
- 표준 합성 파이프라인을 역전시켜 실제 API 탐색 후 태스크를 생성하는 방식으로 레이블의 정확성 확보
- 약 1,000개의 도구를 효율적으로 처리하기 위해 쌍별 도구 그래프와 서브 DAG 샘플링 기법 도입
- 라이브 API의 환경 변화에 대응하기 위해 탐색 결과를 캐싱하고 재현하는 검색 증강 시뮬레이터 구축
- Firefly로 학습된 4B 모델이 대형 모델인 Claude Sonnet 4.6 수준의 도구 호출 성능 달성
도구 호출 (Tool-calling) 에이전트를 학습시키기 위해서는 검증 가능한 레이블 (Verifiable labels)이 포함된 대규모 궤적 (Trajectory) 데이터가 필요하지만, 기존 방식들은 실제 API 동작과 동떨어진 환경을 합성하거나 검증을 위한 정답 (Ground-truth) 결과가 없는 태스크를 생성한다는 한계가 있습니다. 본 논문에서는 실제 MCP 서버로부터 검증된 도구 호출 데이터를 생성하는 파이프라인인 Firefly를 제안합니다. 우리의 핵심 통찰은 표준 합성 파이프라인을 역전시키는 것입니다. 즉, 태스크를 먼저 생성하고 그것이 해결 가능하기를 기대하는 대신, 먼저 강력한 LLM이 그래프 가이드 DAG (Directed Acyclic Graph, 유향 비순환 그래프) 구조를 따라 실제 API를 탐색하게 한 다음, 관찰된 결과로부터 태스크를 역방향으로 합성함으로써 구조적으로 레이블의 정확성을 보장합니다. 실제 세계의 방대한 도구 공간(약 1,000개의 도구)을 처리하기 위해, 우리는 쌍별 도구 그래프 (Pairwise tool graph)를 구축하고 서브 DAG (Sub-DAG)를 샘플링하여 의미론적으로 일관된 워크플로에 탐색을 집중시킵니다. 라이브 API의 환경 드리프트 (Environment drift) 문제를 해결하기 위해, 모든 탐색 결과를 캐싱하고 학습 및 평가 중에 이를 재현하는 검색 증강 시뮬레이터 (Retrieval-augmented simulator)를 구축하여, 완전한 오프라인 및 재현 가능한 RL (강화학습)을 가능하게 합니다. 이 파이프라인을 적용하여 240개의 서버와 993개의 도구에 걸친 5,144개의 검증된 태스크를 확보했습니다. Firefly를 통해 GRPO (Group Relative Policy Optimization)로 학습된 4B 파라미터 모델은 우리의 홀드아웃 (Held-out) 테스트 세트에서 Claude Sonnet 4.6과 대등한 성능을 보였으며, Tau2-Bench, MCPMark, MCP-Atlas를 포함한 여러 도구 호출 벤치마크에서 성능 향상을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기