NVIDIA가 LocateAnything를 출시했습니다

NVIDIA가 LocateAnything를 출시했습니다.

이 모델은 느린 토큰 단위의 좌표 생성 (token-by-token coordinate generation) 방식을 대체하여, 단일 단계에서 경계 상자 (bounding boxes)를 원자 단위 (atomic units)로 디코딩합니다. 병렬 박스 디코딩 (Parallel Box Decoding)은 탐지 (detection), OCR, 그리고 GUI 작업 전반에서 위치 정확도 (localization accuracy)를 향상시키는 동시에 추론 (inference) 속도를 2.5배 더 빠르게 구현합니다.

논문 (Paper):
https://huggingface.co/papers/2605.27365

모델 (Model):
https://huggingface.co/nvidia/LocateAnything-3B

데모 (Demo):
https://huggingface.co/spaces/nvidia/LocateAnything

WBench는 20개의 비디오 월드 모델 (video world models)을 벤치마킹합니다.

289개의 사례와 1,058회의 턴으로 구성된 포괄적인 멀티 턴 (multi-turn) 평가입니다.

5개 차원에 걸친 22개의 지표 (metrics)를 통해 핵심적인 발견을 제시합니다.

품질 (quality), 제어 (control), 그리고 물리 (physics) 측면 모두에서 압도적인 단일 모델은 존재하지 않습니다.

Insights

NVIDIA가 LocateAnything를 출시했습니다

요약

핵심 포인트

댓글

인더스트리 4.0의 간과된 계층: 왜 운영 메모리가 모든 스마트 공장에 필요한가

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접