본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 13:59

ActiveSAM: 빠르고 정확한 오픈 보카블러리 세그멘테이션을 위한 이미지 조건부 클래스 프루닝 (Image-Conditional Class

요약

ActiveSAM은 SAM 3를 활용하여 오픈 보카블러리 시맨틱 세그멘테이션(OVSS)의 효율성을 극대화하는 제로샷 추론 프레임워크입니다. 이미지에 포함된 활성 클래스만을 선별하여 디코딩함으로써 속도와 정확도를 동시에 개선했습니다.

핵심 포인트

  • 훈련이 필요 없는 제로샷 추론 프레임워크 제공
  • 이미지 조건부 활성 집합 추정을 통한 계산 효율성 증대
  • 대규모 어휘 데이터셋에서 기존 대비 최대 5.5배 빠른 속도 구현
  • SegEarth-OV3 대비 평균 약 +1.4 mIoU 성능 향상
  • 자율 주행 및 임바디드 AI에 적합한 높은 견고성 입증

Segment Anything Model 3 (SAM 3)는 개념 프롬프트 기반 세그멘테이션 (concept-prompted segmentation)을 위한 강력한 동결된 백본 (frozen backbone)을 제공하지만, 이를 오픈 보카블러리 시맨틱 세그멘테이션 (open-vocabulary semantic segmentation, OVSS)에 직접 적용하는 것은 비효율적입니다. 전체 해상도 디코딩 (full-resolution decoding)이 일반적으로 전체 데이터셋 어휘 (vocabulary)에 대해 실행되는 반면, 각 이미지에는 클래스의 작은 활성 부분 집합 (active subset)만이 포함되어 있기 때문입니다. 우리는 SAM 3를 활성 어휘 세그멘터 (active-vocabulary segmenter)로 변환하는 훈련이 필요 없는 제로샷 추론 (zero-shot inference) 프레임워크인 ActiveSAM을 소개합니다. ActiveSAM은 먼저 클래스 프롬프트를 표준화 및 확장한 다음, 저해상도 존재 프리뷰 (presence preview)로부터 이미지 조건부 활성 집합 (image-conditioned active set)을 추정합니다. 유지된 클래스들만이 동결된 SAM 3 디코더를 사용한 버킷형 프롬프트 멀티플렉싱 (bucketed prompt multiplexing)을 통해 전체 해상도로 디코딩됩니다. 프리뷰 단계는 클래스 존재 증거만을 사용하며 불필요한 세그멘테이션 헤드 (segmentation-head) 계산을 건너뛰는 반면, 최종 단계는 낮은 신뢰도의 픽셀을 억제하기 위해 마진 인식 배경 보정 (margin-aware background calibration)을 적용합니다. ActiveSAM은 타겟 데이터셋 훈련, 가중치 업데이트, 그리고 오라클 클래스 존재 라벨 (oracle class-presence labels)을 필요로 하지 않습니다. 8개의 OVSS 벤치마크 전반에 걸쳐, ActiveSAM은 훈련이 필요 없는 오픈 보카블러리 시맨틱 세그멘테이션의 속도-정확도 트레이드오프 (speed-accuracy tradeoff)를 개선하며, 대규모 어휘 데이터셋에서 최대 5.5배 더 빠르게 작동하면서 현재의 최첨단 기술인 SegEarth-OV3를 평균적으로 약 +1.4 mIoU 상회하는 성능을 보여줍니다. 또한 ActiveSAM은 실제 환경의 분포 변화 (distribution shift)를 시뮬레이션하는 이미지 손상 상황에서도 가장 강력한 견고성 (robustness)을 입증하여, 자율 주행 및 임바디드 AI (embodied AI)와 같이 노이즈가 있는 입력 도메인에 배포하기에 매우 적합합니다. 코드는 https://github.com/VILA-Lab/ActiveSAM 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0