LongAV-Compass

텍스트, 이미지, 비디오 조건부 (conditioning)를 아우르는 분 단위 규모의 오디오-비주얼 생성 (audio-visual generation)을 위한 통합 벤치마크 (benchmark)입니다.

이 벤치마크는 품질, 일관성 (consistency), 그리고 결합성 (coherence)의 20개 이상의 차원에 걸친 284개의 테스트 케이스를 통해 11개의 모델을 평가합니다.

논문 (Paper):
https://huggingface.co/papers/2605.26244
…
데이터셋 (Dataset):
https://huggingface.co/datasets/TengfeiLiuCoder/LongAV-Compass
…

SpatialBench

공간 기초 모델 (spatial foundation models)을 위한 최초의 교차 패러다임 (cross-paradigm) 벤치마크로, 19개의 데이터셋, 546개의 장면 (scenes), 그리고 41개의 모델을 아우르며 단 하나의 질문에 답합니다: 당신은 진정으로 다재다능한 플레이어입니까?

Insights

LongAV-Compass

요약

핵심 포인트

댓글

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접

오펜하이머, 테라팹이 스페이스X의 가치 평가와 미래에 '결정적'이라고 밝히다

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접

오펜하이머, 테라팹이 스페이스X의 가치 평가와 미래에 '결정적'이라고 밝히다