본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 28. 10:12

LongAV-Compass

요약

LongAV-Compass는 텍스트, 이미지, 비디오 조건을 활용한 분 단위 규모의 오디오-비주얼 생성 모델을 평가하는 통합 벤치마크입니다. 또한 SpatialBench는 공간 기초 모델의 다재다능함을 검증하기 위한 최초의 교차 패러다임 벤치마크를 소개합니다.

핵심 포인트

  • LongAV-Compass: 20개 차원, 284개 테스트 케이스로 11개 모델 평가
  • 오디오-비주얼 생성의 품질, 일관성, 결합성 측정
  • SpatialBench: 19개 데이터셋과 41개 모델 대상 공간 모델 벤치마크

LongAV-Compass

텍스트, 이미지, 비디오 조건부 (conditioning)를 아우르는 분 단위 규모의 오디오-비주얼 생성 (audio-visual generation)을 위한 통합 벤치마크 (benchmark)입니다.

이 벤치마크는 품질, 일관성 (consistency), 그리고 결합성 (coherence)의 20개 이상의 차원에 걸친 284개의 테스트 케이스를 통해 11개의 모델을 평가합니다.

논문 (Paper):
https://huggingface.co/papers/2605.26244

데이터셋 (Dataset):
https://huggingface.co/datasets/TengfeiLiuCoder/LongAV-Compass

SpatialBench

공간 기초 모델 (spatial foundation models)을 위한 최초의 교차 패러다임 (cross-paradigm) 벤치마크로, 19개의 데이터셋, 546개의 장면 (scenes), 그리고 41개의 모델을 아우르며 단 하나의 질문에 답합니다: 당신은 진정으로 다재다능한 플레이어입니까?

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0