arXiv논문2026. 06. 16. 13:59

ActiveSAM: 빠르고 정확한 오픈 보카블러리 세그멘테이션을 위한 이미지 조건부 클래스 프루닝 (Image-Conditional Class

요약

ActiveSAM은 SAM 3를 활용하여 오픈 보카블러리 시맨틱 세그멘테이션(OVSS)의 효율성을 극대화하는 제로샷 추론 프레임워크입니다. 이미지에 포함된 활성 클래스만을 선별하여 디코딩함으로써 속도와 정확도를 동시에 개선했습니다.

핵심 포인트

훈련이 필요 없는 제로샷 추론 프레임워크 제공
이미지 조건부 활성 집합 추정을 통한 계산 효율성 증대
대규모 어휘 데이터셋에서 기존 대비 최대 5.5배 빠른 속도 구현
SegEarth-OV3 대비 평균 약 +1.4 mIoU 성능 향상
자율 주행 및 임바디드 AI에 적합한 높은 견고성 입증

Segment Anything Model 3 (SAM 3)는 개념 프롬프트 기반 세그멘테이션 (concept-prompted segmentation)을 위한 강력한 동결된 백본 (frozen backbone)을 제공하지만, 이를 오픈 보카블러리 시맨틱 세그멘테이션 (open-vocabulary semantic segmentation, OVSS)에 직접 적용하는 것은 비효율적입니다. 전체 해상도 디코딩 (full-resolution decoding)이 일반적으로 전체 데이터셋 어휘 (vocabulary)에 대해 실행되는 반면, 각 이미지에는 클래스의 작은 활성 부분 집합 (active subset)만이 포함되어 있기 때문입니다. 우리는 SAM 3를 활성 어휘 세그멘터 (active-vocabulary segmenter)로 변환하는 훈련이 필요 없는 제로샷 추론 (zero-shot inference) 프레임워크인 ActiveSAM을 소개합니다. ActiveSAM은 먼저 클래스 프롬프트를 표준화 및 확장한 다음, 저해상도 존재 프리뷰 (presence preview)로부터 이미지 조건부 활성 집합 (image-conditioned active set)을 추정합니다. 유지된 클래스들만이 동결된 SAM 3 디코더를 사용한 버킷형 프롬프트 멀티플렉싱 (bucketed prompt multiplexing)을 통해 전체 해상도로 디코딩됩니다. 프리뷰 단계는 클래스 존재 증거만을 사용하며 불필요한 세그멘테이션 헤드 (segmentation-head) 계산을 건너뛰는 반면, 최종 단계는 낮은 신뢰도의 픽셀을 억제하기 위해 마진 인식 배경 보정 (margin-aware background calibration)을 적용합니다. ActiveSAM은 타겟 데이터셋 훈련, 가중치 업데이트, 그리고 오라클 클래스 존재 라벨 (oracle class-presence labels)을 필요로 하지 않습니다. 8개의 OVSS 벤치마크 전반에 걸쳐, ActiveSAM은 훈련이 필요 없는 오픈 보카블러리 시맨틱 세그멘테이션의 속도-정확도 트레이드오프 (speed-accuracy tradeoff)를 개선하며, 대규모 어휘 데이터셋에서 최대 5.5배 더 빠르게 작동하면서 현재의 최첨단 기술인 SegEarth-OV3를 평균적으로 약 +1.4 mIoU 상회하는 성능을 보여줍니다. 또한 ActiveSAM은 실제 환경의 분포 변화 (distribution shift)를 시뮬레이션하는 이미지 손상 상황에서도 가장 강력한 견고성 (robustness)을 입증하여, 자율 주행 및 임바디드 AI (embodied AI)와 같이 노이즈가 있는 입력 도메인에 배포하기에 매우 적합합니다. 코드는 https://github.com/VILA-Lab/ActiveSAM 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ActiveSAM: 빠르고 정확한 오픈 보카블러리 세그멘테이션을 위한 이미지 조건부 클래스 프루닝 (Image-Conditional Class

요약

핵심 포인트

댓글