SynAE: 도구 호출 (Tool-Calling) 에이전트 평가를 위한 합성 데이터 품질 측정 프레임워크
요약
도구 호출(Tool-calling) 에이전트 평가를 위해 합성 데이터의 품질을 측정하는 프레임워크인 SynAE를 소개합니다. SynAE는 합성 데이터가 실제 데이터의 특성을 얼마나 잘 복제하는지 타당성, 충실도, 다양성 측면에서 다각도로 평가합니다.
핵심 포인트
- 도구 호출 에이전트용 합성 데이터 품질 측정 프레임워크 SynAE 제안
- 타당성, 충실도, 다양성 등 4가지 지표 범주를 통한 다축 평가 수행
- 단일 지표가 아닌 다각적 평가를 통한 합성 데이터 품질 검증 필요성 강조
- 실제 데이터셋의 희소성 및 보안 문제를 해결하기 위한 합성 데이터 활용 지원
오늘날 도구 호출 (tool-calling) 에이전트는 입력 명령, 에이전트 응답, 관련 도구 호출을 포함하는 실행 트레이스 (execution traces)의 정적 데이터셋을 통해 일반적으로 평가되거나 테스트됩니다. 그러나 내부 운영 데이터셋은 테스트용으로 불충분하거나 사용 불가능한 경우가 많습니다. 예를 들어, 민감하거나 독점적인 데이터를 포함하고 있거나, (특히 배포 전 단계에서) 포괄적인 테스트를 지원하기에는 너무 희소할 수 있습니다. 이러한 환경에서 실무자들은 평가 목적으로 실제 데이터셋을 합성 데이터셋 (synthetic datasets)으로 대체하거나 보강하는 사례가 점점 늘어나고 있습니다. 핵심 과제는 이러한 합성 데이터셋과 실제 데이터 사이의 관계를 정량화하는 것입니다. 우리는 멀티턴 (multi-turn) 도구 호출 에이전트를 위한 합성 벤치마크가 실제 데이터 궤적 (trajectories)의 특성을 얼마나 잘 복제하고 보강하는지 평가하기 위한 평가 프레임워크인 SynAE를 소개합니다. SynAE는 네 가지 지표 범주에 걸쳐 합성 데이터의 타당성 (validity), 충실도 (fidelity), 다양성 (diversity)을 평가합니다: (i) 작업 지침 및 중간 응답, (ii) 도구 호출 (tool calls), (iii) 최종 출력, (iv) 다운스트림 평가 (downstream evaluation). 우리는 최신 에이전트 벤치마크를 사용하여 SynAE를 평가하고, 현실적이고 통제된 생성 체계를 통해 일반적인 합성 데이터 실패 모드 (failure modes)를 테스트합니다. SynAE는 데이터의 타당성, 충실도 및 다양성의 미세한 변화를 감지하며, 단일 지표만으로는 합성 데이터 품질을 완전히 특징짓기에 충분하지 않음을 보여줌으로써 에이전트 테스트를 위한 합성 데이터의 다축 평가 (multi-axis evaluation) 필요성을 제시합니다. SynAE의 데모는 https://synae-2026-synae-demo.static.hf.space/index.html 에서 확인할 수 있으며, 코드는 https://github.com/wsqwsq/SynAE 에서 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기