【기반 모델은 LLM만이 아니다】 "프롬프트로 무엇이든 잘라내는" 이미지 버전 ChatGPT, SAM 철저 해설

ChatGPT에 "〇〇에 대해 알려줘"라고 프롬프트(prompt)를 던지면, 그럴듯한 문장이 돌아옵니다. 이는 GPT가 대량의 텍스트로 사전 학습된 기반 모델 (foundation model) 이며, 추가 학습 없이도 다양한 태스크(task)에 응답할 수 있기 때문입니다.

그렇다면, 이미지 세그멘테이션 (image segmentation, 이미지 속의 오브젝트를 픽셀 단위로 잘라내는 태스크)에도 똑같은 일을 할 수 없을까요?

"이 점을 가리켜줘", "이 박스 안의 내용을 잘라내줘"라고 프롬프트를 주면, 추가 학습 없이도 그럴듯한 마스크(mask)를 반환해 주는 모델이 있다면 매우 편리할 것입니다.

이를 실현한 것이 Meta AI가 2023년에 발표한 SAM (Segment Anything Model) 입니다. SAM은 그야말로 "이미지 세그멘테이션 버전의 기반 모델"이며, 논문 제목 그대로 "Segment Anything" (무엇이든 잘라내기)을 가능하게 했습니다.

태스크: 프롬프트 (점·박스·마스크 등)를 주면, 대응하는 세그멘테이션 마스크를 반환 -
모델: 이미지 인코더 (image encoder) + 프롬프트 인코더 (prompt encoder) + 마스크 디코더 (mask decoder)의 3부 구성 -
데이터: 1,100만 장의 이미지와 11억 개의 마스크를 가진 거대 데이터셋 SA-1B로 학습

세그멘테이션의 기초부터 SAM의 아키텍처 (architecture), Python을 이용한 구동 방법, 후속 모델인 SAM 2까지, ML 초보자도 따라올 수 있도록 쉽게 풀어서 해설합니다.

이미지 계열의 태스크는 크게 다음의 3가지로 나뉩니다.

태스크	출력	예
이미지 분류 (Classification)	이미지 1장에 대한 레이블 (label)	"이것은 고양이 이미지"
객체 탐지 (Detection)	바운딩 박스 (bounding box) + 레이블	"여기에 고양이가 있음 (사각형)"
세그멘테이션 (Segmentation)	픽셀 단위의 마스크	"이 픽셀 군집이 고양이"

세그멘테이션은 "이미지의 어느 픽셀이 어느 오브젝트에 속하는가"를 픽셀 단위로 구분하여 칠하는 태스크입니다. 객체 탐지가 사각형으로 대략적으로 둘러싸는 것에 반해, 세그멘테이션은 윤곽선을 따라 그리듯 잘라냅니다.

더 세부적으로 나누면,

Semantic Segmentation: "고양이", "개"와 같이 클래스 (class) 단위로 구분 (동종의 개체는 구분하지 않음) -
Instance Segmentation: "고양이 A", "고양이 B"와 같이 개체 단위로 구분 -
Panoptic Segmentation: 위 두 가지를 통합한 것

이 있습니다.

기존의 세그멘테이션 모델 (U-Net, Mask R-CNN, DeepLab 등)은 강력하지만, **"태스크마다 다시 학습시키지 않으면 사용할 수 없다"**는 큰 제약이 있었습니다.

클래스가 고정됨: 학습 시 정의한 클래스 (예: COCO의 80개 클래스)만 잘라낼 수 있음. 새로운 물체를 잘라내고 싶다면 추가적인 레이블이 붙은 데이터를 모아 재학습이 필요함. -
도메인 (domain)에 취약함: 자연 이미지로 학습한 모델은 의료 이미지, 위성 이미지, 현미경 이미지 등 다른 도메인에서는 제대로 작동하지 않음. -
어노테이션 (annotation) 비용이 높음: 픽셀 단위의 레이블링은 분류나 탐지에 비해 압족적으로 손이 많이 감. -

즉, "새로운 용도마다 데이터를 모아서 학습을 돌려야" 했던 것입니다.

NLP의 세계에서는 GPT와 같은 기반 모델이 "사전 학습 → 프롬프트로 다양한 태스크에 대응"이라는 패러다임 (paradigm)을 정착시켰습니다.

이미지 세그멘테이션에서도, 추가 학습 없이 임의의 오브젝트를 잘라낼 수 있는 "기반 모델" 이 있다면 위의 과제들을 단번에 해결할 수 있습니다.

이를 실현한 것이 다음 장에서 소개할 SAM의 Promptable Segmentation Task 입니다.

SAM의 가장 중요한 컨셉이 바로 Promptable Segmentation Task (프롬프터블 세그멘테이션 태스크) 입니다. 직역하면 "프롬프트로 지시할 수 있는 세그멘테이션"입니다. 이는 LLM의 패러다임을 그대로 이미지 세그멘테이션에 가져온 것입니다.

관점	LLM (GPT, ChatGPT)	SAM
입력	텍스트 프롬프트 (질문, 지시)	이미지 + 프롬프트 (점·박스·마스크)
출력	텍스트 (그럴듯한 응답)	세그멘테이션 마스크 (그럴듯한 영역)
학습	대량의 텍스트로 사전 학습 (Pre-training)	대량의 이미지 + 마스크로 사전 학습 (SA-1B)
사용법	추가 학습 없이 프롬프트만으로 (Zero-shot)	추가 학습 없이 프롬프트만으로 (Zero-shot)
강점	프롬프트에 따라 다양한 태스크에 대응	프롬프트에 따라 다양한 오브젝트를 추출 가능

LLM이 "문장 생성이라는 하나의 능력을 획득함으로써 요약·번역·코드 생성 등 다양한 태스크에 대응할 수 있는 것"과 마찬가지 구조로, SAM은 "프롬프트에 응답하는 마스크를 반환한다는 하나의 능력을 획득함으로써 다양한 세그멘테이션 요구에 대응할 수 있는 것"입니다.

SAM이 받아들이는 프롬프트는 크게 4가지 종류로 나뉩니다.

점 (Point): "여기에 있는 물체를 잘라내줘"라고 1점(또는 여러 점)으로 지정. 전경점(포함하고 싶은 부분)과 배경점(제외하고 싶은 부분)을 구분할 수 있음 -
박스 (Box): "이 직사각형 안의 주요 물체를 잘라내줘"라고 바운딩 박스 (Bounding Box)로 지정 -
마스크 (Mask): "이 대략적인 영역을 베이스로 더 정밀하게 잘라내줘"라고 거친 마스크로 지정 -
텍스트 (Text): ""고양이"를 잘라내줘"라고 자연어로 지정 (논문에서 언급되었으나, 공식 구현에서는 미공개) -

이것들은 단독으로도, 조합해서도 사용할 수 있습니다. 예를 들어 "박스로 대략적인 범위를 좁히고, 점으로 세부 사항을 보정한다"와 같은 사용이 가능합니다.

LLM이 같은 질문에 대해 여러 개의 그럴듯한 응답을 반환할 수 있도록, SAM도 하나의 프롬프트에 대해 여러 개의 마스크를 반환하도록 설계되어 있습니다.

예를 들어 "셔츠를 입은 사람"의 가슴 위치에 점을 찍으면, 답은

셔츠를 추출하고 싶음 -
옷을 입은 사람 전체를 추출하고 싶음 -
사람의 상반신을 추출하고 싶음 -

등 여러 가지가 있을 수 있습니다. 이는 1점의 프롬프트만으로는 결정할 수 없는 **본질적인 모호함 (Ambiguity)**입니다.

SAM은 이 문제에 대해 하나의 프롬프트로부터 3개의 마스크 (whole / part / subpart에 대응)를 동시에 출력함으로써 대응합니다. 각각에 신뢰도 스코어 (Confidence Score)가 붙기 때문에, 사용자나 다운스트림 태스크 (Downstream Task)가 원하는 것을 선택할 수 있습니다. 이는 논문에서도 강조된 SAM의 중요한 설계 결정입니다.

SAM은 3개의 컴포넌트 (Component)로 구성됩니다.

[ 이미지 ] ──► Image Encoder ────┐
├──► Mask Decoder ──► [ 마스크 ]
[ 프롬프트 ] ──► Prompt Encoder ┘

여기서 중요한 것은 **"무거운 처리를 이미지 측에 집중시키고, 프롬프트 측은 가볍게 만든다"**는 설계입니다. 이를 통해 한 번 이미지를 읽어들이면, 이후에는 프롬프트를 바꿀 때마다 고속으로 마스크가 반환됩니다 (인터랙티브한 용도를 상정).

입력 이미지를 특징 벡터 (Image Embedding)로 변환하는 컴포넌트입니다.

아키텍처: ViT-H/16 (Vision Transformer의 최대 사이즈, 약 6.3억 개의 파라미터) -
사전 학습: **MAE (Masked Autoencoder)**를 통한 자기지도 학습 (Self-supervised Learning). 이미지의 일부를 마스크 처리하고 복원시키는 태스크를 통해, 라벨 없이 대량의 이미지로부터 특징을 학습할 수 있음 -
입력 사이즈: 1024×1024로 리사이즈 -
출력: 64×64×256의 특징 맵 (Feature Map, Image Embedding) -
계산 비용: GPU에서 1초 미만 정도 (A100에서 수백 ms). 단, 이미지 1장당 1번만 실행하면 됨 -

이 "한 번 계산한 임베딩을 재사용한다"는 설계가 후단의 인터랙티브한 고속 응답을 뒷받침합니다.

프롬프트를 벡터 (Prompt Embedding)로 변환하는 컴포넌트입니다. 프롬프트는 성질에 따라 2가지 종류로 나누어 취급됩니다.

Sparse prompts (점·박스·텍스트)

점: 좌표를 위치 인코딩 (positional encoding)으로 벡터화하고, 「전경/배경」을 나타내는 학습된 임베딩을 추가
박스: 왼쪽 상단과 오른쪽 하단의 2개 점으로 표현
텍스트: CLIP의 텍스트 인코더로 임베딩 (실험적)

Dense prompts (마스크)

입력 마스크를 컨볼루션 (convolution)으로 다운샘플링하여, image embedding과 동일한 해상도로 맞춰 더함

가볍기 때문에 계산 비용은 거의 무시할 수 있습니다.

image embedding과 prompt embedding을 받아 마스크를 출력하는 경량 Transformer입니다.

구조적으로는 「cross-attention으로 프롬프트와 이미지 특징을 상호 참조 → 업샘플링 → 마스크 예측」
출력은 앞서 언급한 바와 같이
3가지 마스크 (whole / part / subpart에 대응)와 각각의 신뢰도 점수 (IoU 예측)
계산 비용이 매우 가벼워, Prompt Encoder와 합쳐서
브라우저 CPU에서도 약 50 ms 내에 동작
무거운 이미지 인코딩: 수백 ms ~ 1초 (GPU) / 이미지 1장당 1회
가벼운 프롬프트 처리 + 마스크 디코딩: ~50 ms (브라우저 CPU) / 프롬프트를 바꿀 때마다 실행

이를 통해 「이미지를 처음에 로드하여 특징을 추출 → 사용자가 클릭한 부분을 즉시 잘라냄」과 같은 웹 데모와 같은 인터랙티브한 경험이 성립합니다.

기반 모델이 「무엇이든 잘라낼 수 있게」 되려면, 그에 걸맞은 거대하고 다양한 데이터가 필요합니다. SAM의 학습에 사용된 SA-1B는 한마디로 사상 최대 규모의 세그멘테이션 (segmentation) 데이터셋입니다.

항목	수치
이미지 수	1,100만 장 (11M)
...

픽셀 단위의 마스크를 11억 개나 수동으로 다는 것은 인해전술로는 현실적으로 불가능합니다. SAM 팀은 이 문제를 **「모델 스스로가 어노테이션 (annotation)을 돕게 한다」**는 발상으로 해결했습니다. 그것이 바로 **데이터 엔진 (Data Engine)**입니다.

[ Stage 1 ] [ Stage 2 ] [ Stage 3 ]
Assisted-manual → Semi-automatic → Fully automatic
(사람이 주역) (사람과 모델의 협업) (모델이 주역)

인간 어노테이터가 초기 버전의 SAM을 보조 도구로 사용하며 마스크를 작성
여기서 만들어진 데이터로 SAM을 재학습하여 더욱 똑똑하게 만듦

약 430만 마스크 (이미지 약 12만 장)

SAM이 「신뢰도가 높은 마스크」를 자동 생성
인간은
모델이 놓친 물체만을 추가로 어노테이션 - 인간이 커버해야 할 범위가 줄어들어 효율이 대폭 상승

약 590만 마스크 (이미지 약 18만 장, 누적 약 1,020만 마스크)

이미지에
32×32 그리드 형태로 점 프롬프트를 입력함으로써 SAM 스스로 모든 마스크를 생성 - 신뢰도가 낮은 마스크나 중복된 것은 자동으로 필터링
인간은 개입하지 않음

약 11억 마스크 (1,100만 장 전체에 적용, 최종적인 SA-1B의 대부분)

이와 같이 **「모델이 똑똑해짐 → 자동화가 더 진행됨 → 데이터가 더욱 늘어남」**이라는 양의 피드백 루프로 스케일을 실현했습니다.

SA-1B에는 인물 이미지도 포함되어 있기 때문에, Meta는 공개 전에 얼굴·자동차 번호판을 블러 (blur) 처리했습니다. 데이터셋은 연구 목적으로 라이선스 하에 공개되어 있으며, 누구나 다운로드하여 이용할 수 있습니다.

공식 구현체 facebookresearch/segment-anything을 사용하여, 3가지 대표적인 사용법을 살펴보겠습니다.

pip install git+https://github.com/facebookresearch/segment-anything.git
pip install opencv-python matplotlib

학습된 체크포인트 (checkpoint)는 공식 README에서 다운로드할 수 있습니다 (3가지 사이즈가 있으며, 가장 큰 ViT-H는 약 2.5GB입니다).

모델	체크포인트	파라미터 수
ViT-B	`sam_vit_b_01ec64.pth`	약 9,100만
ViT-L	`sam_vit_l_0b3195.pth`	약 3.1억
ViT-H	`sam_vit_h_4b8939.pth`	약 6.3억

import cv2
import numpy as np
from segment_anything import sam_model_registry, SamPredictor
...

핵심은 predictor.set_image(image)에서 Image Encoder가 단 한 번만 실행된다는 것입니다. 이후 프롬프트를 변경하며 predictor.predict(...)를 여러 번 호출하더라도, 가벼운 Prompt Encoder + Mask Decoder만 작동하기 때문에 속도가 빠릅니다.

'여기 부분을 잘라내 줘'라고 한 지점을 지정하는 가장 기본적인 사용법입니다.

# 자르고 싶은 물체 위에 한 점 (좌표는 이미지의 픽셀 위치)
input_point = np.array([[500, 375]])
input_label = np.array([1]) # 1 = 전경, 0 = 배경
...

multimask_output=True로 설정하면, 제3장에서 설명한 **'모호성에 대한 대응'**으로서 세 개의 마스크가 반환됩니다. scores (IoU 예측) 중 가장 높은 것을 선택하는 것이 기본 전략입니다.

전경점과 배경점을 함께 사용하면 '여기는 포함하고, 여기는 제외해'와 같이 미세 조정할 수 있습니다.

input_point = np.array([[500, 375], [600, 400]])
input_label = np.array([1, 0]) # 1번째 점은 포함, 2번째 점은 제외

물체 탐지(Object Detection)와 결합할 때 유용한 사각형 지정입니다.

input_box = np.array([425, 600, 700, 875]) # [x1, y1, x2, y2]
masks, scores, _ = predictor.predict(
box=input_box,
...

YOLO와 같은 물체 탐지기를 전단에 배치하고, 탐지된 박스를 SAM에 전달함으로써, '물체 탐지 + 인스턴스 분할(Instance Segmentation)' 파이프라인을 Zero-shot으로 구축할 수 있습니다.

프롬프트 없이 이미지 속의 모든 물체를 잘라내고 싶다면 SamAutomaticMaskGenerator를 사용합니다. 내부적으로는 이미지에 그리드 형태로 점 프롬프트를 찍고, 얻은 마스크를 중복 제거 및 저품질 필터링하고 있습니다 (데이터 엔진의 Stage 3과 동일한 메커니즘).

from segment_anything import SamAutomaticMaskGenerator
mask_generator = SamAutomaticMaskGenerator(sam)
masks = mask_generator.generate(image)
...

반환되는 딕셔너리에는 마스크 자체 외에도 면적, 바운딩 박스, 신뢰도 등의 메타 정보가 포함되어 있어 후속 처리가 용이하도록 설계되었습니다.

SAM의 진가는 추가 학습 없이 다양한 태스크에 전용할 수 있는 Zero-shot성에 있습니다. 논문에서도 여러 응용 사례가 제시되었습니다.

에지 검출 (Edge Detection): 자동 마스크 생성 결과로부터 윤곽선을 추출하는 것만으로 에지 검출 전용 모델에 육박하는 성능을 발휘
객체 검출 (Object Detection) + 인스턴스 세그멘테이션 (Instance Segmentation): 검출기(Detector)의 출력 박스를 SAM에 전달하는 파이프라인
텍스트 지시를 통한 세그멘테이션 (Segmentation with Text Instructions): CLIP 등의 텍스트·이미지 인코더와 조합하여 "고양이를 잘라내기"를 실현 (Grounded-SAM 등의 프로젝트가 유명)
이미지 편집 / 인페인팅 (Inpainting): SAM으로 대상을 잘라낸 뒤, Stable Diffusion 등으로 교체
의료 영상 · 위성 영상 · 현미경 영상: 자연 이미지로 학습된 모델임에도 불구하고 Zero-shot으로 어느 정도 작동 (엄밀히 말하면 도메인 특화 파인튜닝(Fine-tuning)을 거친 MedSAM 등이 파생)
동영상의 프레임별 세그멘테이션: 간이 동영상 분석 (엄밀히 말하면 다음에 소개할 SAM 2가 본체)

"새로운 태스크가 생기면 우선 SAM을 시도해 본다"가 Zero-shot 세그멘테이션의 데파크토(De facto)가 되어가고 있습니다.

클래스 레이블을 반환하지 않음: SAM은 "이 부분을 잘라냈다"라고 알려줄 뿐, "이것은 고양이다"라고 말해주지는 않음. 의미 이해를 위해서는 별도의 모델(CLIP 등)과의 조합이 필요
세밀한 구조를 놓치는 경우가 있음: 머리카락, 잎의 윤곽 등 극도로 미세한 구조에는 취약
계산 비용: ViT-H는 GPU가 전제 조건. 에지 디바이스에서는 ViT-B도 무거움 (경량 버전인 MobileSAM, FastSAM이 파생)
텍스트 프롬프트는 미공개: 논문에는 언급이 있으나, 공식 가중치(Weights)는 공개되지 않음
동영상 대응 불가: 프레임 간의 일관성이 보장되지 않음

2024년, Meta는 후속 모델인 **SAM 2 (Segment Anything Model 2)**를 발표했습니다. 주요 진화 포인트는 다음과 같습니다.

동영상 대응: 이미지뿐만 아니라 동영상에서도 프롬프트 기반 세그멘테이션(Promptable Segmentation)이 가능해짐. 1개 프레임에서 오브젝트를 지정하면 후속 프레임에서도 추적해 줌
메모리 메커니즘: 과거 프레임의 정보를 유지하는 **메모리 어텐션 (Memory Attention)**을 도입하여 시간 방향의 일관성을 확보
이미지에서도 고속화: SAM보다 약 6배 빠름 (동등하거나 더 높은 정밀도)
새로운 데이터셋 SA-V: 약 5만 개의 동영상과 60만 개 이상의 마스크렛 (Masklet, 동영상용 마스크 시퀀스)으로 학습

2025년 11월, Meta는 한 단계 더 나아가 SAM 3를 공개했습니다. 핵심이 되는 새로운 태스크는 **Promptable Concept Segmentation (PCS)**로, SAM / SAM 2의 "1 프롬프트 → 1 마스크" 방식에서 **"개념을 지정 → 이미지/동영상 내 해당 개념에 부합하는 모든 인스턴스를 검출·세그먼트·추적"**하는 방식으로 확장되었습니다.

텍스트 프롬프트 대응: "yellow school bus"와 같은 짧은 명사구로 지정 가능 (SAM에서는 논문에 언급만 되었을 뿐 미공개였던 기능을 정식 구현)
이미지 Exemplar 프롬프트: 참조 이미지를 전달하여 "이것과 동일한 개념"을 지정
Open-vocabulary 검출: 학습 시 정의된 클래스에 얽매이지 않고, 자유로운 개념으로 모든 인스턴스를 잘라낼 수 있음
이미지·동영상 모두 대응: 실시간 동영상 추적도 가능
새로운 데이터셋 SA-Co (Segment Anything with Concepts): 평가 벤치마크만 21만 개 이상의 유니크 프레이즈 × 12만 개 이상의 이미지/동영상. 기존 대비 개념 수 50배 이상
정밀도: 이미지·동영상 PCS에서 기존 시스템 대비 약 2배

SAM 2가 "지정한 1개의 오브젝트를 동영상 전체에서 추적하는" 용도에 강하다면, SAM 3는 "개념을 지정하여 모든 인스턴스를 일괄 획득하는" 용도에 강하다는 식으로 역할 분담이 이루어집니다. 지금까지 "객체 검출기 + SAM" 파이프라인으로 구축해야 했던 처리를 SAM 3 단독으로 완결할 수 있게 된 점이 특히 큰 진화 포인트입니다.

참고로 SAM 2는 Apache 2.0 라이선스였으나, SAM 3는 독자적인 "SAM License"를 따릅니다. 상업적 이용을 검토할 경우 반드시 리포지토리의 LICENSE를 확인하시기 바랍니다.

「SAM을 사용한다면, 먼저 SAM 2 / SAM 3를 검토한다」가 현재(2026년 시점)의 표준적인 선택지입니다. 용도별로는, 영상에서 특정 객체를 추적하고 싶다면 SAM 2, 텍스트나 exemplar(예시)로 개념을 일괄 검출하고 싶다면 SAM 3가 출발점이 됩니다.

본 기사에서는 이미지 세그멘테이션 (Image Segmentation)의 기반 모델인 SAM을, LLM과의 대응 관계부터 시작하여 다음과 같은 흐름으로 해설했습니다.

Promptable Segmentation Task: 「프롬프트에 따른 마스크를 반환한다」는 하나의 능력으로, Zero-shot으로 다양한 세그멘테이션 요구에 부응하는 설계 -
3가지 컴포넌트 구성: 무거운 Image Encoder를 단 한 번만 구동하고, 가벼운 Prompt Encoder + Mask Decoder를 반복하는 인터랙티브 (Interactive) 설계 -
데이터 엔진 (Data Engine): 모델 스스로 어노테이션 (Annotation)을 돕게 하는 선순환 구조를 통해, 11억 개의 마스크라는 전례 없는 규모를 실현 -
실전: segment-anything을 사용하면 점(Point), 박스(Box), 자동 생성 등 다양한 활용법을 단 몇 줄의 코드로 구현 가능 -
후속 SAM 2 / SAM 3: SAM 2는 영상 대응 및 고속화, SAM 3는 텍스트나 exemplar를 통한 개념 기반의 일괄 검출. 신규 프로젝트에서는 이들을 우선적으로 검토

「LLM만이 기반 모델이 아니다」라는 것이 본 기사의 출발점이었습니다. SAM은 이미지 세그멘테이션이라는 특정 태스크에 대해, 프롬프트 가능 기반 모델 (Promptable Foundation Model)이라는 패러다임이 매우 유효하다는 것을 보여준 선구적인 연구입니다. 동일한 사상은 객체 탐지 (Object Detection), 깊이 추정 (Depth Estimation), 3D 재구성 (3D Reconstruction) 등 다른 비전 (Vision) 태스크로도 확산되고 있습니다.

앞으로 이미지 계열의 태스크를 다루게 될 분들은 꼭 한 번 SAM 패밀리 (SAM / SAM 2 / SAM 3)를 접해 보시기 바랍니다. 「먼저 프롬프트로 시도한다」는 발상이 개발 생산성을 크게 변화시켜 줄 것입니다.

Alexander Kirillov et al., "Segment Anything", arXiv:2304.02643 (2023)
Nikhila Ravi et al., "SAM 2: Segment Anything in Images and Videos", arXiv:2408.00714 (2024)
Meta AI, "SAM 3: Segment Anything with Concepts", arXiv:2511.16719 (2025)
공식 구현: facebookresearch/segment-anything
SAM 2: facebookresearch/sam2
SAM 3: facebookresearch/sam3

【기반 모델은 LLM만이 아니다】 "프롬프트로 무엇이든 잘라내는" 이미지 버전 ChatGPT, SAM 철저 해설

요약

핵심 포인트

댓글