X요약2026. 06. 02. 19:41

TASTE에 관한 문제

요약

에이전트 벤치마크의 한계를 극복하기 위해 도구 시퀀스 기반의 TASTE를 제안합니다. 또한 ByteDance가 다수 화자의 음향적 일관성을 유지하는 음성 합성 모델 SwanVoice를 출시했습니다.

TASTE에 관한 문제

현재의 에이전트 벤치마크 (agent benchmarks)는 포화 상태입니다. TASTE는 구축 방식을 뒤집습니다. 즉, 수기로 작성된 시나리오가 아닌 도구 시퀀스 (tool sequences)에서부터 시작합니다.

현재 테스트에서 90%의 점수를 기록하는 모델들이 TASTE에서는 30%로 급락하며, 2배 더 많은 도구 조합 (tool combinations)에 직면합니다.

ByteDance가 SwanVoice를 출시합니다.

이 모델은 최대 4명의 화자가 참여하는 긴 형태의 독백과 대화를 합성합니다.

모델은 대화 차례 (turns) 전반에 걸쳐 음향적 일관성 (acoustic consistency)을 유지합니다.

화자 차례 조건화 (speaker-turn conditioning)를 갖춘 플로우 매칭 DiT (flow-matching DiT)를 사용합니다.

AI 자동 생성 콘텐츠