NVIDIA의 놀라운 성과: 업계의 상식을 깨고 바운딩 박스 (Bounding Box) 탐지 속도를 10배 향상시키다
요약
NVIDIA가 바운딩 박스를 토큰 단위로 예측하던 기존 VLM의 직렬 방식 대신, 병렬 디코딩을 통해 탐지 속도를 10배 향상시킨 LocateAnything 모델을 공개했습니다. 이 모델은 정확도를 유지하면서도 밀집된 장면에서 압도적인 처리 속도를 보여줍니다.
핵심 포인트
- 바운딩 박스를 병렬로 예측하여 기존 대비 10배 빠른 속도 달성
- 정확도 저하 없이 LVIS F1 점수 3.8% 향상
- 밀집된 장면에서 초당 25개 이상의 박스 처리 가능
- 출력 오류 시 직렬 디코딩으로 전환하는 폴백 기능 탑재
🚨 NVIDIA가 방금 말도 안 되는 일을 해냈습니다. 업계 전체가 필수적이라고 가정했던 바로 그 단계를 제거함으로써 바운딩 박스 (Bounding Box) 탐지 속도를 10배 더 빠르게 만들었습니다 ↓
모든 VLM (Vision-Language Model) 그라운딩 (Grounding) 모델은 박스를 문장처럼 취급하여 토큰 (Token) 단위로 하나씩 예측합니다. 이는 본질적으로 느립니다.
LocateAnything의 등장 (Hugging Face 트렌딩 1위, CVPR 2026).
이것은 간단한 질문을 던짐으로써 자연어를 사용하여 어떤 객체, UI 타겟, 또는 텍스트를 찾아내는 고급 3B 비전-언어 모델 (Vision-Language Model)입니다:
왜 박스를 굳이 직렬화 (Serialize) 해야 할까요?
네 개의 모서리는 서로 결합되어 있습니다.
이 모델은 전체 박스를 하나의 병렬 단계 (Parallel step)에서 원자적 (Atomically)으로 예측합니다.
병렬 디코딩 (Parallel decoding)의 영향:
→ 단일 H100에서 초당 12.7개 박스 처리 (Qwen3-VL보다 10배 빠름, Rex-Omni 대비 2.5배)
→ 정확도가 떨어지지 않고 오히려 상승 (LVIS에서 F1 점수 +3.8%, IoU 0.95에서 큰 승리)
→ 밀집된 장면 (300개 박스)에서 약 25 BPS 달성, 반면 직렬 방식 (Sequential)은 급격히 성능 저하
→ 내장된 폴백 (Fallback) 기능: 출력이 잘못된 것처럼 보이면 직렬 디코딩 (Sequential decoding)으로 전환
→ 참조 (Referring), GUI, OCR 작업 전반에 걸쳐 7억 8,500만 개의 박스 / 1억 3,800만 개의 쿼리 (Query)로 학습됨
이 돌파구는 단순히 속도에 관한 것이 아닙니다.
구조화된 출력 (Structured outputs)을 텍스트 형태의 파이프라인을 통해 강제로 통과시키는 것이 인위적인 병목 현상 (Bottleneck)을 만든다는 사실을 깨달은 것입니다.
박스는 결코 토큰 (Token)이 아니었습니다.
리포지토리 (Repo), 데모 (Demo), 가중치 (Weights), 논문 (Paper) 및 기타 리소스는 아래 스레드(🧵)에서 확인하세요 ↓
AI 자동 생성 콘텐츠
본 콘텐츠는 X @indutripat82427 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기