본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:01

LocateAnything: 병렬 박스 디코딩 (Parallel Box Decoding)을 통한 빠르고 고품질인 시각-언어 그라운딩

요약

LocateAnything는 병렬 박스 디코딩(PBD)을 통해 시각-언어 모델의 그라운딩 및 탐지 성능을 개선한 프레임워크입니다. 기존의 순차적 토큰 생성 방식 대신 단일 단계 병렬 디코딩을 사용하여 추론 속도와 기하학적 일관성을 동시에 확보했습니다.

핵심 포인트

  • 병렬 박스 디코딩(PBD)을 통한 추론 병목 현상 해결
  • 박스 내부의 기하학적 일관성 및 디코딩 처리량 향상
  • 1억 3,800만 개 이상의 대규모 데이터셋 LocateAnything-Data 구축
  • 속도와 정확도 사이의 경계를 확장하여 높은 IoU 달성

시각-언어 모델 (Vision-language models, VLMs)은 일반적으로 시각적 그라운딩 (visual grounding) 및 탐지 (detection)를 좌표-토큰 생성 문제로 정식화하며, 각 2D 박스를 독립적으로 학습되고 디코딩되는 여러 개의 1D 토큰으로 직렬화합니다. 이러한 토큰 단위의 디코딩 (token-by-token decoding)은 박스 기하학 (box geometry)의 결합된 구조와 일치하지 않으며, 엄격하게 순차적인 생성으로 인해 실제 추론 병목 현상을 야기합니다. 우리는 병렬 박스 디코딩 (Parallel Box Decoding, PBD)에 기반한 통합 생성형 그라운딩 및 탐지 프레임워크인 LocateAnything를 소개합니다. 경계 박스 (bounding boxes) 및 포인트 (points)와 같은 기하학적 요소들을 단일 단계에서 원자적 단위 (atomic units)로 디코딩함으로써, LocateAnything는 박스 내부의 기하학적 일관성 (intra-box geometric coherence)을 유지하고 상당한 병렬성을 확보합니다. 우리는 PBD가 디코딩 처리량 (decoding throughput)과 위치 측정 정확도 (localization accuracy)를 모두 향상시킨다는 것을 보여줍니다. 나아가 우리는 확장 가능한 데이터 엔진을 개발하고, 1억 3,800만 개 이상의 학습 샘플을 포함하는 대규모 데이터셋인 LocateAnything-Data를 구축하여 고정밀 위치 측정을 위한 데이터 다양성을 실질적으로 증가시켰습니다. 광범위한 평가 결과, LocateAnything는 속도-정확도 경계 (speed-accuracy frontier)를 진전시켜 다양한 벤치마크에서 높은 IoU (high-IoU) 위치 측정 품질을 개선하는 동시에 현저히 높은 디코딩 처리량을 달성함을 보여줍니다. 이러한 결과는 효율적이고 정밀한 통합 시각적 그라운딩 및 탐지를 가능하게 하는 데 있어 병렬 박스 디코딩 (Parallel Box Decoding)과 대규모 학습 데이터의 상호 보완적인 이점을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0