WBench, 20개의 비디오 월드 모델 (video world models) 벤치마크

289개의 케이스와 1,058회의 턴 (turns)을 포함한 포괄적인 멀티턴 (multi-turn) 평가.

5개 차원에 걸친 22개의 지표 (metrics)를 통해 핵심적인 발견을 제시합니다.

품질 (quality), 제어 (control), 그리고 물리 법칙 (physics) 모두를 압도하는 단일 모델은 존재하지 않습니다.

Kling 3.0, Wan 2.7, Seedance 1.5, Genie 3 및 기타 16개 모델을 테스트했습니다.

모든 모델에는 사각지대 (blind spots)가 존재합니다.

논문 (Paper):
https://huggingface.co/papers/2605.25874

데이터 (Data):
https://huggingface.co/datasets/meitan-longcat/WBench

StepAudio 2.5: 음성 인식 (speech recognition), 합성 (synthesis), 그리고 실시간 대화 (live dialogue)를 위한 단일 모델

ASR (자동 음성 인식), 텍스트 음성 변환 (text-to-speech), 그리고 실시간 구어 상호작용 (real-time spoken interaction) 전반에 걸쳐 전문화된 시스템과 대등하거나 이를 능가할 수 있도록, 작업 맞춤형 RLHF (Reinforcement Learning from Human Feedback)를 사용하는 통합 오디오-언어 파운데이션 모델 (audio-language foundation model)입니다.

Insights

WBench, 20개의 비디오 월드 모델 (video world models) 벤치마크

요약

핵심 포인트

댓글

인더스트리 4.0의 간과된 계층: 왜 운영 메모리가 모든 스마트 공장에 필요한가

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접