
SpatialBench
요약
공간 파운데이션 모델의 능력을 평가하기 위한 최초의 교차 패러다임 벤치마크인 SpatialBench를 소개합니다. 또한 NVIDIA의 LocateAnything 모델은 병렬 박스 디코딩을 통해 위치 정확도를 높이고 추론 속도를 2.5배 향상시켰습니다.
핵심 포인트
- SpatialBench: 19개 데이터셋과 41개 모델을 포함한 공간 모델 벤치마크
- LocateAnything: 단일 단계 원자 단위 디코딩 방식 도입
- 병렬 박스 디코딩을 통한 추론 속도 2.5배 향상
- 탐지, OCR, GUI 작업에서의 위치 정확도 개선
SpatialBench
공간 파운데이션 모델 (Spatial Foundation Models)을 위한 최초의 교차 패러다임 (cross-paradigm) 벤치마크로, 19개의 데이터셋, 546개의 장면, 41개의 모델을 아우르며 단 하나의 질문에 답하고자 합니다: 당신은 진정으로 다재다능한 플레이어인가?
논문 (Paper):
https://huggingface.co/papers/2605.27367
…
벤치마크 (Benchmark):
https://huggingface.co/datasets/ropedia-ai/SpatialBenchmark
…
모델 (Model):
https://huggingface.co/ropedia-ai/DA-Next
…
데이터셋 (Dataset):
https://huggingface.co/datasets/ropedia-ai/DA-Next-5M
…
NVIDIA가 방금 LocateAnything를 출시했습니다.
이 모델은 느린 토큰 단위 (token-by-token) 좌표 생성 방식을 대체하여, 바운딩 박스 (bounding boxes)를 단일 단계에서 원자 단위 (atomic units)로 디코딩합니다. 병렬 박스 디코딩 (Parallel Box Decoding)은 탐지 (detection), OCR, 그리고 GUI 작업 전반에서 위치 정확도 (localization accuracy)를 향상시키는 동시에 추론 (inference) 속도를 2.5배 더 빠르게 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기