SynAE: 도구 호출 (Tool-Calling) 에이전트 평가를 위한 합성 데이터 품질 측정 프레임워크

오늘날 도구 호출 (tool-calling) 에이전트는 입력 명령, 에이전트 응답, 관련 도구 호출을 포함하는 실행 트레이스 (execution traces)의 정적 데이터셋을 통해 일반적으로 평가되거나 테스트됩니다. 그러나 내부 운영 데이터셋은 테스트용으로 불충분하거나 사용 불가능한 경우가 많습니다. 예를 들어, 민감하거나 독점적인 데이터를 포함하고 있거나, (특히 배포 전 단계에서) 포괄적인 테스트를 지원하기에는 너무 희소할 수 있습니다. 이러한 환경에서 실무자들은 평가 목적으로 실제 데이터셋을 합성 데이터셋 (synthetic datasets)으로 대체하거나 보강하는 사례가 점점 늘어나고 있습니다. 핵심 과제는 이러한 합성 데이터셋과 실제 데이터 사이의 관계를 정량화하는 것입니다. 우리는 멀티턴 (multi-turn) 도구 호출 에이전트를 위한 합성 벤치마크가 실제 데이터 궤적 (trajectories)의 특성을 얼마나 잘 복제하고 보강하는지 평가하기 위한 평가 프레임워크인 SynAE를 소개합니다. SynAE는 네 가지 지표 범주에 걸쳐 합성 데이터의 타당성 (validity), 충실도 (fidelity), 다양성 (diversity)을 평가합니다: (i) 작업 지침 및 중간 응답, (ii) 도구 호출 (tool calls), (iii) 최종 출력, (iv) 다운스트림 평가 (downstream evaluation). 우리는 최신 에이전트 벤치마크를 사용하여 SynAE를 평가하고, 현실적이고 통제된 생성 체계를 통해 일반적인 합성 데이터 실패 모드 (failure modes)를 테스트합니다. SynAE는 데이터의 타당성, 충실도 및 다양성의 미세한 변화를 감지하며, 단일 지표만으로는 합성 데이터 품질을 완전히 특징짓기에 충분하지 않음을 보여줌으로써 에이전트 테스트를 위한 합성 데이터의 다축 평가 (multi-axis evaluation) 필요성을 제시합니다. SynAE의 데모는 https://synae-2026-synae-demo.static.hf.space/index.html 에서 확인할 수 있으며, 코드는 https://github.com/wsqwsq/SynAE 에서 제공됩니다.

Insights

SynAE: 도구 호출 (Tool-Calling) 에이전트 평가를 위한 합성 데이터 품질 측정 프레임워크

요약

핵심 포인트

댓글

첫 분석: AWS, SageMaker HyperPod에서 Amazon Nova용 다중 턴 RL 인프라 출시

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러