
TASTE에 관한 문제
요약
에이전트 벤치마크의 한계를 극복하기 위해 도구 시퀀스 기반의 TASTE를 제안합니다. 또한 ByteDance가 다수 화자의 음향적 일관성을 유지하는 음성 합성 모델 SwanVoice를 출시했습니다.
핵심 포인트
- TASTE는 수기 시나리오 대신 도구 시퀀스로 벤치마크 구축
- 기존 고성능 모델들이 TASTE 환경에서 성능 급락 확인
- ByteDance의 SwanVoice는 최대 4인 대화 합성 지원
- SwanVoice는 플로우 매칭 DiT를 통해 음향적 일관성 유지
TASTE에 관한 문제
현재의 에이전트 벤치마크 (agent benchmarks)는 포화 상태입니다. TASTE는 구축 방식을 뒤집습니다. 즉, 수기로 작성된 시나리오가 아닌 도구 시퀀스 (tool sequences)에서부터 시작합니다.
현재 테스트에서 90%의 점수를 기록하는 모델들이 TASTE에서는 30%로 급락하며, 2배 더 많은 도구 조합 (tool combinations)에 직면합니다.
논문 (Paper):
https://huggingface.co/papers/2605.28556
…
코드 (Code):
https://github.com/tomerkeren42/TASTE-task-synthesis-from-tool-sequence-evolution
…
ByteDance가 SwanVoice를 출시합니다.
이 모델은 최대 4명의 화자가 참여하는 긴 형태의 독백과 대화를 합성합니다.
모델은 대화 차례 (turns) 전반에 걸쳐 음향적 일관성 (acoustic consistency)을 유지합니다.
화자 차례 조건화 (speaker-turn conditioning)를 갖춘 플로우 매칭 DiT (flow-matching DiT)를 사용합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기