
심층 학습·생성 AI의 전체상을 '3가지 질문'으로 정리하기 | CNN부터 확산 모델·Mamba까지
요약
심층 학습과 생성 AI의 복잡한 모델들을 구조, 학습 방법, 태스크라는 세 가지 질문을 통해 체계적으로 분류하는 가이드를 제공합니다. CNN부터 최신 Mamba 모델까지 주요 기술의 계보와 특징을 정리하여 전체적인 기술 지도를 제시합니다.
핵심 포인트
- 모델 분류를 위한 3가지 핵심 질문(구조, 학습법, 태스크) 제시
- 입력과 출력의 관계를 통한 실용적인 모델 용도 판단법
- CNN, Transformer, Mamba 등 주요 부품별 기술 계보 정리
- 수식 없이 개념적 이해를 돕는 AI 기술 지도 제공
「CNN, Transformer, BERT, GAN, Stable Diffusion…… 이름은 알고 있지만, 결국 각각 무엇이 다르고 어떻게 구분해서 사용해야 하는가를 설명하라고 하면 막막하다」.
기술명을 하나씩 암기해도 이 느낌은 사라지지 않습니다. 효과적인 방법은 전체를 관통하는 '분류의 축'을 먼저 갖는 것입니다. 이 기사에서는 모든 모델을 단 3가지 질문으로 정리하는 지도를 준비하고, 그 위에 주요 기술(최신 Mamba 및 확산 Transformer까지)을 배치해 나가겠습니다.
대상 독자 · 전제
- 심층 학습(Deep Learning)·생성 AI의 용어는 들어봤지만, 서로의 차이점과 활용법을 정리하지 못한 분
- 전체상(지도)을 먼저 조망한 뒤, 개별 기술을 배우고 싶은 분
전제 지식: 「뉴럴 네트워크(Neural Network) = 수치를 넣으면 수치가 나오는 함수 같은 것」이라는 이미지만 있다면 충분합니다. 수식은 거의 사용하지 않습니다.
이 기사에서 다루지 않는 것: 각 모델의 구현·학습 코드·수식 유도. 어디까지나 분류와 활용법의 지도에 집중합니다.
결론: 어떤 모델이라도 「3가지 질문」으로 정리할 수 있다
먼저 결론부터 말씀드립니다. 모델을 보았을 때 다음 3가지를 차례로 질문하면 위치를 파악할 수 있습니다.
- 무엇으로 만들어졌는가? (부품 = 구조) — CNN / RNN / Transformer / Mamba / GNN 중 무엇을 토대로 하는가.
- 어떻게 똑똑해졌는가? (학습 방법) — 지도 학습(Supervised Learning) / 자기 지도 학습(Self-supervised Learning) / 강화학습(RLHF) / 미세 조정(Fine-tuning) 등.
- 무엇을 넣으면 무엇이 나오는가? (태스크 = 입력 → 출력) — 이것이 가장 실용적인 축입니다.
특히 세 번째인 「출력」을 보면 용도를 거의 즉시 판단할 수 있습니다.
| 출력이… | 그것은 | 대표 예시 |
|---|---|---|
| 라벨 · 프레임 · 마스크 | 식별 / 인식 계열 | ResNet, YOLO, BERT |
| 이미지 · 음성 · 문장 그 자체 | 생성 계열 | GAN, 확산 모델(Diffusion Model), GPT |
| 의미를 나타내는 벡터 | 표현(Embedding) 계열 | Word2Vec, CLIP |
| 입력과 같은 형태의 데이터 | 변환 계열 | 번역, CycleGAN, Whisper |
이 기사는 이 3가지 질문에 따라 「① 부품 → ② 학습법 → ③ 태스크별 모델」 순으로 진행됩니다. 완성된 모델은 「부품」을 「학습법」으로 훈련시킨 것이라는 관계를 가집니다.
제1층: 부품(구조)의 계보
먼저, 후반부에 나올 모든 모델의 토대가 되는 부품입니다. 이것들은 단독으로 완성품이 되기보다 조합되어 사용됩니다. 기본적으로 「입력의 형태」에 맞춰 발전해 왔습니다.
| 부품 | 입력 → 출력 | 한마디로 말하면 | 특기 있는 입력 |
|---|---|---|---|
| MLP / 퍼셉트론(Perceptron) | 수치 벡터 → 예측값 | 모든 토대. 전결합 층(Fully Connected Layer) | 표 데이터 |
| CNN | 이미지 → 라벨 · 특징 | 필터로 국소 패턴을 포착 | 이미지 |
| RNN | 시계열 → 시계열 · 벡터 | 순서를 기억하며 읽음 | 문장 · 시계열 |
| LSTM / GRU | 시계열 → 시계열 · 벡터 | 게이트로 「장기 기억」을 획득 | 긴 시계열 |
| Attention (주의 메커니즘) | 시계열 + 질문 → 가중치 표현 | 어디에 주목할지를 학습하는 부품 | 시계열 간의 관계 |
| Transformer | 토큰 열 → 토큰 열 | Attention 정제 + 병렬 계산. 현대의 주역 | 거의 모든 것 |
| Mamba / SSM | 긴 시계열 → 시계열 · 벡터 | Transformer의 선형 시간 대체제 | 초장문 · 스트림 |
| GNN | 그래프 → 노드/그래프의 라벨 | 「연결성」을 다룸 | 관계 데이터 |
지도의 핵심이 되는 부품만 보충하겠습니다.
Attention과 Transformer: 현대 AI의 심장
**Attention (주의 메커니즘)**이란, 「출력에서 지금 주목해야 할 입력 지점」에 가중치를 두는 구조입니다. 왜 필요하냐면, 예를 들어 「그는 개를 키우고 있고, 그것이 귀엽다」를 번역할 때, 「그것 = 개」라고 연결할 필요가 있기 때문입니다. Attention은 출력 측의 「그것」에 대해, 입력 측의 「개」에는 높은 가중치(예: 0.8)를, 「그」에는 낮은 가중치(예: 0.05)를 할당하여 연관시킵니다.
이 메커니즘이 매우 효과적이었기 때문에, **"순차적으로 처리하는 RNN을 그만두고, Attention만으로 구성하자"**라고 시도한 것이 바로 Transformer입니다. RNN과 달리 시퀀스(Sequence)를 한꺼번에 병렬 계산할 수 있어 GPU를 통한 대형화가 가능하며, 이것이 BERT, GPT, ViT, 확산 모델(Diffusion Model)에 이르기까지 거의 모든 토대의 기반이 되었습니다.
Mamba (SSM): Transformer의 약점을 파고드는 신예
여기서 2026년 시점의 신예를 언급하겠습니다. Mamba는 상태 공간 모델 (SSM, State Space Model)이라는 별개의 계통 부품입니다. **한마디로 말하면 "Transformer보다 긴 시퀀스를 더 저렴하고 빠르게 처리할 수 있는 메커니즘"**입니다.
왜 등장했느냐 하면, Transformer의 Attention은 시퀀스가 길어질수록 계산량이 제곱으로 무거워지는 (1만 토큰이라면 1억 가지의 관계를 확인해야 하는) 약점이 있기 때문입니다. Mamba는 고정된 크기의 "상태"에 과거를 압축하며 읽기 때문에, 계산량이 **시퀀스 길이에 비례(선형)**하여 해결되어, 장문 및 장시간 데이터에 강하다고 여겨집니다.
- 🤔 "그럼 Transformer는 불필요한가요?"
- ✅ 아닙니다.
Mamba는 긴 시퀀스의 효율성에서 앞서지만, 문장 내 임의의 두 단어를 직접 잇는 "관계 맺기"는 Transformer가 특기라고 알려져 있으며, 양자를 섞은 하이브리드 구성 (Jamba 등)도 늘어나고 있습니다. "적재적소"가 실정입니다.
제2층: 학습 방법
같은 부품이라도, 어떻게 훈련하느냐에 따라 성격이 결정됩니다. 이 부분은 특정 모델이라기보다 방법론에 해당하며, 입출력은 "모델 + 데이터 → 더 나은 모델"이라는 한 단계 메타적인 형태를 띱니다.
| 학습법 | 입력 → 출력 | 한마디로 말하면 | 대표 사례 |
|---|---|---|---|
| 지도 학습 (Supervised Learning) | 데이터 + 정답 라벨 → 예측 모델 | 정답과 함께 배우는 기본 형태 | 이미지 분류 |
| 자기 지도 학습 (Self-Supervised Learning) | 라벨 없는 데이터 → 범용 표현 | 데이터 스스로 문제를 자작 | 다음 단어 예측 (GPT) · 빈칸 채우기 (BERT) |
| 대조 학습 (Contrastive Learning) | 데이터 쌍 (유사/상이) → 임베딩 공간 | 유사한 것은 가깝게, 상이한 것은 멀게 배치 | SimCLR, CLIP |
| 강화학습 (RL) | 환경의 상태 → 행동 | 시행착오를 통해 보상을 최대화 | AlphaGo |
| RLHF | 출력 + 인간의 선호도 → 정렬 모델 | 인간의 선호도를 보상으로 삼아 조정 | ChatGPT의 조정 |
| 전이 학습 (Transfer Learning) · 파인튜닝 (Fine-tuning) | 학습 완료 모델 + 소량 데이터 → 특화 모델 | 토대를 유용하여 미세 조정 | 학습 완료된 ResNet을 자사 용도로 사용 |
| LoRA / PEFT | 거대 모델 + 소량 → 경량화된 추가 가중치 | 일부만 저렴하게 미세 조정 | 화풍을 익히는 LoRA |
| 지식 증류 (Knowledge Distillation) | 거대 모델의 출력 → 소형 모델 | 거대 모델의 지식을 소형 모델로 이식하여 경량화 | 단말기용 경량 모델 |
파악해야 할 "형태"는 하나입니다. "대량 데이터로 토대를 만들고 (사전 학습), 용도에 맞춰 조금 조정한다 (파인튜닝 / LoRA)" —— 이 분업이 지금의 심층 학습의 상식입니다. BERT도 GPT도 이미지 모델도 이 흐름에 따라 실용화되고 있습니다.
제3층: 태스크별 대표 모델
여기서부터가 본체입니다. **"무엇을 넣으면 무엇이 나오는가"**에 따라 크게 4개 그룹으로 나뉩니다. 전체상은 다음과 같습니다.
생성 (②) 내부가 다시 5개로 갈라지는 것이 포인트이며, 이 부분이 후반부의 핵심입니다. 차례대로 살펴보겠습니다.
① 식별 · 인식: 이미지를 "이해하는" 모델
이미지 인식은 출력의 정밀도에 따라 단계가 나뉩니다. "종류만 → 위치(박스)도 → 윤곽(마스크)도"와 같이 정밀해질수록 용도가 달라집니다.
| 기술 | 입력 → 출력 | 한마디로 요약 | 대표 사례 |
|---|---|---|---|
| ResNet | 이미지 → 라벨 ・ 특징 | 숏컷(Shortcut)으로 초심층 구조 실현 | 인식의 표준 골격 |
| EfficientNet | 이미지 → 라벨 | 적은 연산으로 고정밀도 구현 | 모바일 분류 |
| ViT | 이미지(패치 열) → 라벨 | 이미지를 Transformer로 인식 | 대규모 데이터 분류 |
| Swin Transformer | 이미지 → 계층적 특징 | 윈도우(Window)로 효율화한 범용 시각 골격 | 탐지 ・ 분할의 토대 |
| U-Net | 이미지 → 픽셀 단위 마스크 | 어디에 무엇이 있는지 색칠하여 구분 | 종양 영역 분할 |
| YOLO | 이미지 → 물체의 박스 → 종류 | 한 번에 빠르게 탐지 | 방범 카메라의 인물 감지 |
| R-CNN 계열 | 이미지 → 물체의 박스 → 종류 | 2단계 구조로 고정밀도 구현 | 정밀한 결함 탐지 |
| Mask R-CNN | 이미지 → 물체별 마스크 | 탐지 → 윤곽 추출 | |
| DETR | 이미지 → 물체의 박스 → 종류 | 후처리 없는 End-to-End 탐지 | 탐지와 분할의 통합 |
| SAM | 이미지 → 지시(점/박스) → 마스크 | 학습되지 않은 물체도 "무엇이든 분할" | 원클릭 누끼 따기 |
→→A 언어의 이해와 생성
언어 계열은 "이해(읽기)"와 "생성(쓰기)"으로 성격이 나뉩니다. 출력이 "라벨 ・ 벡터"라면 이해 계열, "이어지는 문장"이라면 생성 계열입니다.
그전에 용어 하나를 짚고 넘어가겠습니다. **임베딩 (Embedding)**이란 "단어나 문장을 의미를 나타내는 수백 차원의 수치 벡터로 변환한 것"입니다. 언어를 계산 가능한 수치로 바꾸는 것이 목적입니다.
이해 ・ 임베딩 계열:
| 기술 | 입력 → 출력 | 한마디로 요약 | 대표 사례 |
|---|---|---|---|
| Word2Vec | 단어 → 벡터 | 단어를 의미 벡터로 변환 | "왕 − 남 → 여 ≃ 여왕" |
| ELMo | 문장 → 문맥 의존 벡터 열 | 문맥에 따라 의미가 변하는 임베딩 | 다의어 구분 |
| BERT | 문장 → 각 단어의 문맥 벡터 | 전후 양방향에서 깊게 이해 | 검색 의도 이해 ・ 분류 |
| 임베딩 모델 | 문서 → 의미 벡터 1개 | 의미 검색의 토대 (• RAG의 핵심) | 사내 문서 의미 검색 |
"의미 벡터로 변환"이라고만 하면 감을 잡기 어려우므로, 구체적인 예시를 직접 따라가 봅시다. 각 단어가 2차원 벡터라고 가정합니다 (실제로는 수백 차원이지만 원리는 같습니다).
왕 = [4.0, 2.0]
남 = [3.0, 0.5]
여 = [1.0, 0.5]
...
의미 관계가 벡터의 덧셈 ・ 뺄셈으로 그대로 표현될 수 있다는 점이 임베딩의 놀라운 점입니다.
생성 계열:
| 기술 | 입력 → 출력 | 한마디로 요약 | 대표 사례 |
|---|---|---|---|
| Seq2Seq | 문장 → 문장 | 읽는 쪽(Encoding)과 쓰는 쪽(Decoding) | 번역 |
| GPT / LLM | 프롬프트 → 이어지는 텍스트 | "다음 단어" 예측을 통한 생성 | ChatGPT |
| T5 / BART | 텍스트 → 텍스트 | 모든 태스크를 "문장 → 문장"으로 통일 | 요약 ・ 문법 교정 |
| 멀티모달 LLM (VLM) | 이미지 → 텍스트 → 텍스트 | 이미지를 "보고" 말로 대답 | 도표 독해 |
많은 사람이 헷갈려 하는 BERT와 GPT의 차이를 명확히 하겠습니다.
- 🤔 "둘 다 Transformer 기반인데 무엇이 다른가요?"
- ✅
출력이 다릅니다. BERT는 "문장 → 분류 ・ 추출 결과"를 내놓는 이해 계열 (빈칸 채우기로 학습하며, 전후 양방향을 봄)입니다. GPT는 "문장 → 이어지는 문장"을 내놓는 생성 계열 (다음 단어 예측으로 학습하며, 왼쪽에서 오른쪽으로 가는 단방향)입니다. **"읽기에 능숙한 BERT, 쓰기에 능숙한 GPT"**라고 기억하면 정리가 쉽습니다.
→→B 음성
음성은 입출력의 방향에 따라 역할이 결정됩니다. 텍스트 → 음성이면 합성, 음성 → 텍스트이면 인식입니다.
| 기술 | 입력 → 출력 | 한마디로 요약 | 대표 사례 |
|---|---|---|---|
| WaveNet | 조건(음소 등) → 음성 파형 | 파형을 1샘플씩 생성 | 자연스러운 읽어주기 |
| TTS (Tacotron / VITS) | 텍스트 → 음성 파형 | 음성 합성 파이프라인 | 나레이션 |
| Whisper | 음성 → 텍스트 | 다국어를 고정밀도로 받아쓰기 | 회의 자동 회의록 |
②-C 생성 모델의 "5가지 제작 방식" (기사의 핵심)
이 부분이 체계화의 핵심입니다. "노이즈로부터 이미지를 만든다"라고 한마디로 말해도, 제작 방식의 철학은 크게 5가지 계통으로 나뉩니다. 이는 생성 모델의 교과서적인 분류로, 이를 알면 개별 모델들을 단번에 정리할 수 있습니다.
용어를 두 가지만 준비하겠습니다.
우도 (Likelihood): "그 데이터가 해당 모델로부터 얼마나 나오기 쉬운가"에 대한 확률. 이를 정확하게 계산할 수 있는지 여부가 모델의 성격을 결정합니다. -
잠재 변수 (Latent Variable): 데이터 이면에 있는 "압축된 설계도". 예를 들어 얼굴 이미지라면 "각도·표정·헤어스타일"과 같은 소수의 수치.
이 관점에서 5가지 계통을 나열하면, 트레이드오프 (Trade-off)가 명확하게 보입니다.
| 제작 방식 | 생성 방식 (한 줄 요약) | 우도 계산 | 생성 속도 | 품질·안정성 | 대표 모델 |
|---|---|---|---|---|---|
| 자기회귀 (Autoregressive) | 요소를 하나씩 순차적으로 예측 | 엄밀히 가능 | 느림 (순차적) | 고품질·안정 | GPT, PixelCNN, WaveNet |
| VAE | 잠재 변수를 경유하여 압축·복원 | 근사치만 가능 | 빠름 (1회) | 흐릿해지기 쉬움·안정 | VAE, VQ-VAE |
| GAN | 생성기와 판별기의 경쟁 | 계산 불가 (암묵적) | 빠름 (1회) | 선명하지만 불안정 | StyleGAN, CycleGAN |
| 정규화 흐름 (Normalizing Flow) | 가역적인 변환으로 노이즈 ⇄ 데이터 | 엄밀히 가능 | 빠름 | 중간 수준 | RealNVP, Glow |
| 확산 (Diffusion) | 노이즈 제거를 수차례 반복 | 근사 가능 | 느림 (다단계) ※ | 최고 품질·안정 | DDPM, Stable Diffusion, DiT |
※ 확산 모델의 "느림"은 후술할 고속화 기법을 통해 개선되고 있습니다.
각 계통을 입출력과 "한 줄 직관"으로 파악합니다.
- 자기회귀 (Autoregressive) (입력: 지금까지의 요소 → 출력: 다음 요소): 문장을 한 단어씩 쓰는 GPT와 같은 발상을 이미지 (PixelCNN)나 음성 (WaveNet)으로 확장한 것. 순서대로 만들기 때문에 확실하지만 느리다.
- VAE (입력: 데이터/잠재 → 출력: 복원·생성): 데이터를 잠재 변수로 압축하고, 거기서 다시 되돌린다. 잠재 공간 (Latent Space)이 연속적이어서 "조금만 움직여도 얼굴이 부드럽게 변하는" 조작에 능숙하다. 단, 흐릿해지기 쉽다.
- GAN (입력: 노이즈 → 출력: 이미지): "위조범 (생성기)」과 "감정사 (판별기)」를 경쟁시킨다. 선명하지만 학습이 불안정하다. 화풍 변환의 CycleGAN도 이 부류에 속한다.
- 정규화 흐름 (Normalizing Flow) (입력: 노이즈 ⇄ 데이터 → 출력: 생성 + 엄밀한 확률): 변환을 모두 "가역적 (Reversible)"으로 설계하여, 생성과 확률 계산을 양립시킨다. 확률을 정확하게 내야 하는 이상 탐지 (Anomaly Detection) 등에서 강력하다.
- 확산 (Diffusion) (입력: 노이즈 (+조건) → 출력: 이미지 등): 이미지를 조금씩 노이즈로 망가뜨린 뒤, 그 역재생을 학습한다. 현재의 주역이며, 고품질과 안정성을 모두 갖추고 있다.
여기서 자연스러운 의문이 생깁니다.
- 🤔 "VAE는 생성 모델인데, 왜 이미지 생성의 주역이 아닌가요?"
→ 흐릿해지기 쉽기 때문입니다. VAE는 "가능한 답들을 평균 내는" 성질이 있어 세부 사항이 뭉개집니다 (자세한 내용은 아래 아코디언 참조). 하지만 Stable Diffusion 내부에서 이미지를 잠재 표현으로 압축하는 역할로서 지금도 현역으로 쓰이고 있습니다. -
- 🤔 "확산 모델이 고품질이고 안정적이라면, 왜 GAN이 남아있나요?"
→ 확산 모델은 한 장을 만드는 데 수십 번의 계산이 필요하여 무겁기 때문입니다. 속도가 중요한 상황에서는 GAN이나 후술할 고속화 기법이 선택됩니다.
왜 VAE는 흐릿해지기 쉬운가
VAE는 "출력과 정답의 차이를 평균적으로 작게 만드는" 방식으로 학습하며, 잠재 분포에 제약을 겁니다. 이러한 성질 때문에 가능한 여러 답을 평균해 버리기 때문에, 세부 사항이 뭉개져 "흐릿함"이 발생합니다. 반면 GAN은 감정사를 속이기 위해 평균이 아닌 하나의 선명한 답을 내놓도록 유도됩니다.
확산 모델의 실용화와 고속화 (2022~2026)
확산 모델은 "무겁다"는 것이 약점이었으나, 최근 몇 년 사이 실용화와 고속화가 급격히 진행되었습니다.
- Stable Diffusion (잠재 확산, 2022): 입력 = 텍스트 → 출력 = 이미지. **VAE로 이미지를 가벼운 잠재 표현(Latent Representation)으로 압축 → 그곳에서 확산(Diffusion) → 디코딩(Decoding)**하는 결합 기술. "VAE + 확산 + (다음 장의) CLIP"으로 구성되며, 부품의 조합의 좋은 예시입니다.
- Consistency Models (2023): 입력 = 노이즈 → 출력 = 이미지. 노이즈에서 단번에 데이터로 옮기는 것을 학습하여, 수십 단계를 1~수 단계로 압축. 실시간 생성의 길을 열었습니다.
- DiT (Diffusion Transformer): 확산의 핵심 엔진을 기존의 U-Net에서 Transformer로 교체한 것. 스케일링(Scaling)이 용이하며, 영상 생성 모델인 **Sora (2024~)**의 기반이 됩니다. "확산 × Transformer"라는 부품의 합류입니다.
3D 생성
사진으로부터 입체를 만드는 계통도 여기에 포함됩니다.
| 기술 | 입력 → 출력 | 한마디로 | 대표 사례 |
|---|---|---|---|
| NeRF | 다각도 사진 → 새로운 시점/3D | 사진으로부터 3D를 암묵적으로 재구성 | 자유 시점 뷰 |
| 3D Gaussian Splatting | 다각도 사진 → 3D 장면 | 명시적 표현으로 고속·고품질 3D | 즉시 걸어 다닐 수 있는 3D 공간 |
**3D Gaussian Splatting (2023)**은 장면을 무수히 많은 색이 있는 타원(Gaussian)의 집합으로 명시적으로 표현함으로써, NeRF보다 학습 및 렌더링을 가속화하고 실시간 표시를 실현한 후계 계열입니다.
③·④ 표현과 멀티모달(Multimodal): 종류를 넘나드는 다리
마지막으로, 서로 다른 종류의 데이터를 연결하는 모델입니다.
| 기술 | 입력 → 출력 | 한마디로 | 대표 사례 |
|---|---|---|---|
| CLIP | 이미지와 텍스트 → 공통 공간의 벡터 | 이미지와 언어를 같은 공간에 배치 | 텍스트로 이미지 검색 |
| DALL-E 계열 | 텍스트 → 이미지 | 이해 + 생성을 통합한 완성품 | 텍스트로부터 이미지 생성 |
| AlphaFold | 아미노산 서열 → 입체 구조(3D) | 서열로부터 단백질의 형태를 예측 | 신약 개발의 구조 분석 |
CLIP은 눈에 띄지 않지만 매우 중요합니다. "빨간 운동화"라는 텍스트와 그 사진을 같은 의미 공간의 가까운 위치에 둘 수 있기 때문에 텍스트로 이미지를 검색할 수 있으며, Stable Diffusion이 "프롬프트의 의미"를 이해하는 토대가 됩니다.
【전체상의 열쇠】 하나의 모델이라도 사용법에 따라 입출력은 변한다
지금까지 각 모델에 대해 "입력 → 출력"을 하나씩 적어왔지만, 사실 같은 모델이라도 사용법(모드)에 따라 입력과 출력은 달라집니다. "결국 어느 쪽인가?"라며 혼란스러워하기 쉬운 가장 큰 포인트이므로, 여기서 명시하겠습니다. **많은 모델은 "단일 기능의 상자"가 아니라, 조합에 따라 역할이 변하는 "부품 세트"**라고 파악하면 전체상이 훨씬 명확해집니다.
예: VAE는 "이미지 → 이미지"인가? 아니면 "노이즈 → 이미지"인가?
VAE는 **인코더 (이미지 → 숫자로 압축)**와 **디코더 (숫자 → 이미지로 복원)**라는 두 부품으로 이루어져 있습니다. 이 두 가지를 어떻게 사용하느냐에 따라 입출력이 달라집니다.
| 사용법 | 입력 | 출력 | 목적 |
|---|---|---|---|
| ① 재구성 | 이미지 | 이미지 (복원판) | 학습 · 이상 탐지 |
| ② 생성 | 노이즈 (잠재 벡터) | 이미지 | 새로운 데이터 생성 |
즉, "VAE는 이미지를 넣으면 이미지가 나오는가?"라는 질문에 대한 답은, ①의 사용법이라면 YES (이미지 → 이미지)입니다. 하지만 VAE가 "생성 모델(Generative Model)"이라 불리는 이유는 ② 때문입니다. 인코더를 사용하지 않고, 디코더에 무작위 숫자를 넣으면 새로운 이미지가 나오기 때문입니다. "무(無)에서 이미지를 낳는 것"이 생성입니다.
왜 ②가 성립하느냐 하면, 학습을 통해 **"이미지의 의미가 담긴 연속적인 잠재 공간(Latent Space)"**을 만들어 두었기 때문입니다. 따라서 그 공간에서 적당히 한 점을 골라 디코더에 통과시키기만 해도 그럴듯한 이미지가 됩니다.
같은 현상은 다른 모델에서도 일어난다
VAE는 극단적인 예일 뿐, 주요 모델의 대부분은 여러 모드를 가집니다. 표의 "입력 → 출력"은 대표적인 한 가지 패턴일 뿐이라고 머릿속에 넣어두면 혼란을 피할 수 있습니다.
| 모델 | 사용법 A | 사용법 B | (사용법 C) |
|---|---|---|---|
| GAN | 노이즈 → 이미지 (생성) | 이미지 → 이미지 (CycleGAN 변환) | — |
| 확산 모델 (Diffusion Model) | 노이즈 → 이미지 (생성) | 노이즈 + 텍스트 → 이미지 (조건부) | 손상된 이미지 → 복구 이미지 |
| BERT | 문장 → 분류 레이블 (이해) | 문장 → 각 단어의 벡터 (임베딩) | 문장 → 빈칸 채우기 단어 |
| Autoencoder | 데이터 → 복원 데이터 | 데이터 → 잠재 벡터 (압축) | — |
주의할 점 · 흔한 오해
- 🤔
"Transformer가 최강이라면, CNN이나 RNN은 이제 필요 없는 것 아닌가요?"
→ 꼭 그렇지는 않습니다. 소규모 데이터에서는 CNN이나 기존 방식이 승리하는 경우도 많으며, 저지연 (Low Latency)이 필요한 현장에서는 LSTM/GRU도 여전히 현역입니다. 게다가 확산 모델 (Diffusion Model)의 노이즈 제거 엔진 (U-Net)은 CNN 계열입니다. 오래된 부품은 새로운 시스템 안에서 계속 살아 숨 쉬고 있습니다.
- 🤔
"생성 AI (Generative AI) = LLM?"
→ 생성 AI는 훨씬 더 넓은 개념입니다. 이미지 (확산), 음성 (TTS), 3D (NeRF)도 생성 AI이며, LLM은 그중 언어 버전에 해당합니다.
- 🤔
"VAE는 시대에 뒤떨어졌나요?"
→ 아닙니다. 단독 이미지 생성에서는 주도권을 내주었지만, Stable Diffusion의 내부 압축기로서 지금도 핵심적으로 사용되고 있습니다.
- 🤔
"결국 어떤 생성 모델을 사용해야 하나요?"
→ 용도에 따라 다릅니다. 선명한 이미지를 고품질로 만들려면 확산 모델, **확률도 정확하게 내야 하는 이상 탐지 (Anomaly Detection)**라면 플로우 (Flow), 초고속으로 한 장을 뽑으려면 GAN이나 Consistency, 이미지와 언어를 같은 틀에서 다루려면 자기회귀 (Autoregressive) 모델로, '5가지 제작 방식' 표를 통해 역으로 찾아볼 수 있습니다.
요약
방대해 보이는 심층 학습 (Deep Learning) · 생성 AI (Generative AI)도 3가지 질문으로 하나의 지도에 담을 수 있습니다.
- 무엇으로 만들어졌는가? (부품) — CNN / RNN / Transformer / Mamba / GNN
- 어떻게 똑똑해졌는가? (학습법) — 자기지도 학습 (Self-Supervised Learning) → 파인튜닝 (Fine-tuning) / RLHF / LoRA
- 무엇을 넣으면 무엇이 나오는가? (태스크) — 출력이 레이블이면 식별, 데이터 그 자체면 생성, 벡터면 표현, 같은 형태면 변환
그리고 생성 모델은 자기회귀 (Autoregressive) · VAE · GAN · 플로우 (Flow) · 확산 (Diffusion)의 5개 계통으로 파악합니다. 이것만으로도 새로운 모델을 보았을 때 "어느 계통의, 어떤 조합인가"라고 위치를 파악할 수 있습니다.
가장 큰 깨달음은 **"최신 모델의 대부분은 기존 부품의 조합이다"**라는 점입니다. Stable Diffusion이 VAE + 확산 + CLIP이었고, Sora가 확산 + Transformer (DiT)였던 것처럼, 지도 위의 점과 점이 연결되면 이해 속도가 비약적으로 빨라집니다.
다음 단계
관심 있는 기술을 딱 하나만 골라, 그 원 논문(Original Paper)이나 공식 구현체를 깊이 파고들어 보는 것을 추천합니다. 지도로 위치를 파악한 뒤에 세부 사항으로 들어가는 것이 길을 잃지 않는 방법입니다!
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기