X요약2026. 06. 04. 19:56

Embodied AI 실시간 시각적 위치 추정(Visual Grounding) 10배 가속을 실현한 강력한 오픈소스 도구

요약

NVIDIA NVlabs에서 로봇 및 물리 세계 에이전트를 위한 초고속 시각적 위치 추정 모델인 LocateAnything를 공개했습니다. 이 오픈소스 도구는 단일 이미지나 비디오에서 물체 지칭, 박스 지정, OCR 등 다양한 작업을 10배 가속된 속도로 수행합니다.

핵심 포인트

NVIDIA NVlabs의 오픈소스 모델 LocateAnything 출시
실시간 시각적 위치 추정(Visual Grounding) 10배 가속 실현
지칭, 박스 지정, 밀집 탐지, OCR 등 다중 작업 동시 수행 가능
로봇 및 물리 세계 에이전트(Embodied AI) 최적화

Embodied AI 실시간 시각적 위치 추정(Visual Grounding) 10배 가속을 실현한 강력한 오픈소스 도구
https://
github.com/NVlabs/Eagle/t
ree/main/Embodied
…

이것이 바로 NVIDIA NVlabs에서 출시한 초고속 시각적 위치 추정(Visual Grounding) 거대 모델, LocateAnything입니다!

단일 이미지나 비디오에서 임의의 물체를 가리키거나 한 마디를 말하면, 극도로 빠른 속도와 매우 높은 정밀도로 지칭(Pointing), 박스 지정(Bounding), 밀집 탐지(Dense Detection), GUI 요소 위치 추정, OCR, 문서 레이아웃 분석 등 여러 작업을 동시에 수행할 수 있습니다. 로봇 및 물리 세계 에이전트(Agent)를 위해 탄생했습니다!

AI 자동 생성 콘텐츠

원문 바로가기

Embodied AI 실시간 시각적 위치 추정(Visual Grounding) 10배 가속을 실현한 강력한 오픈소스 도구

요약

핵심 포인트

댓글