본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 06. 00:42

심층 학습·생성 AI의 전체상을 '3가지 질문'으로 정리하기 | CNN부터 확산 모델·Mamba까지

요약

심층 학습과 생성 AI의 복잡한 모델들을 구조, 학습 방법, 태스크라는 세 가지 질문을 통해 체계적으로 분류하는 가이드를 제공합니다. CNN부터 최신 Mamba 모델까지 주요 기술의 계보와 특징을 정리하여 전체적인 기술 지도를 제시합니다.

핵심 포인트

  • 모델 분류를 위한 3가지 핵심 질문(구조, 학습법, 태스크) 제시
  • 입력과 출력의 관계를 통한 실용적인 모델 용도 판단법
  • CNN, Transformer, Mamba 등 주요 부품별 기술 계보 정리
  • 수식 없이 개념적 이해를 돕는 AI 기술 지도 제공

「CNN, Transformer, BERT, GAN, Stable Diffusion…… 이름은 알고 있지만, 결국 각각 무엇이 다르고 어떻게 구분해서 사용해야 하는가를 설명하라고 하면 막막하다」.

기술명을 하나씩 암기해도 이 느낌은 사라지지 않습니다. 효과적인 방법은 전체를 관통하는 '분류의 축'을 먼저 갖는 것입니다. 이 기사에서는 모든 모델을 단 3가지 질문으로 정리하는 지도를 준비하고, 그 위에 주요 기술(최신 Mamba 및 확산 Transformer까지)을 배치해 나가겠습니다.

대상 독자 · 전제

  • 심층 학습(Deep Learning)·생성 AI의 용어는 들어봤지만, 서로의 차이점과 활용법을 정리하지 못한
  • 전체상(지도)을 먼저 조망한 뒤, 개별 기술을 배우고 싶은 분

전제 지식: 「뉴럴 네트워크(Neural Network) = 수치를 넣으면 수치가 나오는 함수 같은 것」이라는 이미지만 있다면 충분합니다. 수식은 거의 사용하지 않습니다.

이 기사에서 다루지 않는 것: 각 모델의 구현·학습 코드·수식 유도. 어디까지나 분류와 활용법의 지도에 집중합니다.

결론: 어떤 모델이라도 「3가지 질문」으로 정리할 수 있다

먼저 결론부터 말씀드립니다. 모델을 보았을 때 다음 3가지를 차례로 질문하면 위치를 파악할 수 있습니다.

  • 무엇으로 만들어졌는가? (부품 = 구조) — CNN / RNN / Transformer / Mamba / GNN 중 무엇을 토대로 하는가.
  • 어떻게 똑똑해졌는가? (학습 방법) — 지도 학습(Supervised Learning) / 자기 지도 학습(Self-supervised Learning) / 강화학습(RLHF) / 미세 조정(Fine-tuning) 등.
  • 무엇을 넣으면 무엇이 나오는가? (태스크 = 입력 → 출력) — 이것이 가장 실용적인 축입니다.

특히 세 번째인 「출력」을 보면 용도를 거의 즉시 판단할 수 있습니다.

출력이…그것은대표 예시
라벨 · 프레임 · 마스크식별 / 인식 계열ResNet, YOLO, BERT
이미지 · 음성 · 문장 그 자체생성 계열GAN, 확산 모델(Diffusion Model), GPT
의미를 나타내는 벡터표현(Embedding) 계열Word2Vec, CLIP
입력과 같은 형태의 데이터변환 계열번역, CycleGAN, Whisper

이 기사는 이 3가지 질문에 따라 「① 부품 → ② 학습법 → ③ 태스크별 모델」 순으로 진행됩니다. 완성된 모델은 「부품」을 「학습법」으로 훈련시킨 것이라는 관계를 가집니다.

제1층: 부품(구조)의 계보

먼저, 후반부에 나올 모든 모델의 토대가 되는 부품입니다. 이것들은 단독으로 완성품이 되기보다 조합되어 사용됩니다. 기본적으로 「입력의 형태」에 맞춰 발전해 왔습니다.

부품입력 → 출력한마디로 말하면특기 있는 입력
MLP / 퍼셉트론(Perceptron)수치 벡터 → 예측값모든 토대. 전결합 층(Fully Connected Layer)표 데이터
CNN이미지 → 라벨 · 특징필터로 국소 패턴을 포착이미지
RNN시계열 → 시계열 · 벡터순서를 기억하며 읽음문장 · 시계열
LSTM / GRU시계열 → 시계열 · 벡터게이트로 「장기 기억」을 획득긴 시계열
Attention (주의 메커니즘)시계열 + 질문 → 가중치 표현어디에 주목할지를 학습하는 부품시계열 간의 관계
Transformer토큰 열 → 토큰 열Attention 정제 + 병렬 계산. 현대의 주역거의 모든 것
Mamba / SSM긴 시계열 → 시계열 · 벡터Transformer의 선형 시간 대체제초장문 · 스트림
GNN그래프 → 노드/그래프의 라벨「연결성」을 다룸관계 데이터

지도의 핵심이 되는 부품만 보충하겠습니다.

Attention과 Transformer: 현대 AI의 심장

**Attention (주의 메커니즘)**이란, 「출력에서 지금 주목해야 할 입력 지점」에 가중치를 두는 구조입니다. 왜 필요하냐면, 예를 들어 「그는 개를 키우고 있고, 그것이 귀엽다」를 번역할 때, 「그것 = 개」라고 연결할 필요가 있기 때문입니다. Attention은 출력 측의 「그것」에 대해, 입력 측의 「개」에는 높은 가중치(예: 0.8)를, 「그」에는 낮은 가중치(예: 0.05)를 할당하여 연관시킵니다.

이 메커니즘이 매우 효과적이었기 때문에, **"순차적으로 처리하는 RNN을 그만두고, Attention만으로 구성하자"**라고 시도한 것이 바로 Transformer입니다. RNN과 달리 시퀀스(Sequence)를 한꺼번에 병렬 계산할 수 있어 GPU를 통한 대형화가 가능하며, 이것이 BERT, GPT, ViT, 확산 모델(Diffusion Model)에 이르기까지 거의 모든 토대의 기반이 되었습니다.

Mamba (SSM): Transformer의 약점을 파고드는 신예

여기서 2026년 시점의 신예를 언급하겠습니다. Mamba는 상태 공간 모델 (SSM, State Space Model)이라는 별개의 계통 부품입니다. **한마디로 말하면 "Transformer보다 긴 시퀀스를 더 저렴하고 빠르게 처리할 수 있는 메커니즘"**입니다.

왜 등장했느냐 하면, Transformer의 Attention은 시퀀스가 길어질수록 계산량이 제곱으로 무거워지는 (1만 토큰이라면 1억 가지의 관계를 확인해야 하는) 약점이 있기 때문입니다. Mamba는 고정된 크기의 "상태"에 과거를 압축하며 읽기 때문에, 계산량이 **시퀀스 길이에 비례(선형)**하여 해결되어, 장문 및 장시간 데이터에 강하다고 여겨집니다.

  • 🤔 "그럼 Transformer는 불필요한가요?"
  • ✅ 아닙니다.
    Mamba는 긴 시퀀스의 효율성에서 앞서지만, 문장 내 임의의 두 단어를 직접 잇는 "관계 맺기"는 Transformer가 특기라고 알려져 있으며, 양자를 섞은 하이브리드 구성 (Jamba 등)도 늘어나고 있습니다. "적재적소"가 실정입니다.

제2층: 학습 방법

같은 부품이라도, 어떻게 훈련하느냐에 따라 성격이 결정됩니다. 이 부분은 특정 모델이라기보다 방법론에 해당하며, 입출력은 "모델 + 데이터 → 더 나은 모델"이라는 한 단계 메타적인 형태를 띱니다.

학습법입력 → 출력한마디로 말하면대표 사례
지도 학습 (Supervised Learning)데이터 + 정답 라벨 → 예측 모델정답과 함께 배우는 기본 형태이미지 분류
자기 지도 학습 (Self-Supervised Learning)라벨 없는 데이터 → 범용 표현데이터 스스로 문제를 자작다음 단어 예측 (GPT) · 빈칸 채우기 (BERT)
대조 학습 (Contrastive Learning)데이터 쌍 (유사/상이) → 임베딩 공간유사한 것은 가깝게, 상이한 것은 멀게 배치SimCLR, CLIP
강화학습 (RL)환경의 상태 → 행동시행착오를 통해 보상을 최대화AlphaGo
RLHF출력 + 인간의 선호도 → 정렬 모델인간의 선호도를 보상으로 삼아 조정ChatGPT의 조정
전이 학습 (Transfer Learning) · 파인튜닝 (Fine-tuning)학습 완료 모델 + 소량 데이터 → 특화 모델토대를 유용하여 미세 조정학습 완료된 ResNet을 자사 용도로 사용
LoRA / PEFT거대 모델 + 소량 → 경량화된 추가 가중치일부만 저렴하게 미세 조정화풍을 익히는 LoRA
지식 증류 (Knowledge Distillation)거대 모델의 출력 → 소형 모델거대 모델의 지식을 소형 모델로 이식하여 경량화단말기용 경량 모델

파악해야 할 "형태"는 하나입니다. "대량 데이터로 토대를 만들고 (사전 학습), 용도에 맞춰 조금 조정한다 (파인튜닝 / LoRA)" —— 이 분업이 지금의 심층 학습의 상식입니다. BERT도 GPT도 이미지 모델도 이 흐름에 따라 실용화되고 있습니다.

제3층: 태스크별 대표 모델

여기서부터가 본체입니다. **"무엇을 넣으면 무엇이 나오는가"**에 따라 크게 4개 그룹으로 나뉩니다. 전체상은 다음과 같습니다.

생성 (②) 내부가 다시 5개로 갈라지는 것이 포인트이며, 이 부분이 후반부의 핵심입니다. 차례대로 살펴보겠습니다.

① 식별 · 인식: 이미지를 "이해하는" 모델

이미지 인식은 출력의 정밀도에 따라 단계가 나뉩니다. "종류만 → 위치(박스)도 → 윤곽(마스크)도"와 같이 정밀해질수록 용도가 달라집니다.

기술입력 → 출력한마디로 요약대표 사례
ResNet이미지 → 라벨 ・ 특징숏컷(Shortcut)으로 초심층 구조 실현인식의 표준 골격
EfficientNet이미지 → 라벨적은 연산으로 고정밀도 구현모바일 분류
ViT이미지(패치 열) → 라벨이미지를 Transformer로 인식대규모 데이터 분류
Swin Transformer이미지 → 계층적 특징윈도우(Window)로 효율화한 범용 시각 골격탐지 ・ 분할의 토대
U-Net이미지 → 픽셀 단위 마스크어디에 무엇이 있는지 색칠하여 구분종양 영역 분할
YOLO이미지 → 물체의 박스 → 종류한 번에 빠르게 탐지방범 카메라의 인물 감지
R-CNN 계열이미지 → 물체의 박스 → 종류2단계 구조로 고정밀도 구현정밀한 결함 탐지
Mask R-CNN이미지 → 물체별 마스크탐지 → 윤곽 추출
DETR이미지 → 물체의 박스 → 종류후처리 없는 End-to-End 탐지탐지와 분할의 통합
SAM이미지 → 지시(점/박스) → 마스크학습되지 않은 물체도 "무엇이든 분할"원클릭 누끼 따기

→→A 언어의 이해와 생성

언어 계열은 "이해(­읽기)"와 "생성(­쓰기)"으로 성격이 나뉩니다. 출력이 "라벨 ・ 벡터"라면 이해 계열, "이어지는 문장"이라면 생성 계열입니다.

그전에 용어 하나를 짚고 넘어가겠습니다. **임베딩 (Embedding)**이란 "단어나 문장을 의미를 나타내는 수백 차원의 수치 벡터로 변환한 것"입니다. 언어를 계산 가능한 수치로 바꾸는 것이 목적입니다.

이해 ・ 임베딩 계열:

기술입력 → 출력한마디로 요약대표 사례
Word2Vec단어 → 벡터단어를 의미 벡터로 변환"왕 − 남 → 여 ≃ 여왕"
ELMo문장 → 문맥 의존 벡터 열문맥에 따라 의미가 변하는 임베딩다의어 구분
BERT문장 → 각 단어의 문맥 벡터전후 양방향에서 깊게 이해검색 의도 이해 ・ 분류
임베딩 모델문서 → 의미 벡터 1개의미 검색의 토대 (• RAG의 핵심)사내 문서 의미 검색

"의미 벡터로 변환"이라고만 하면 감을 잡기 어려우므로, 구체적인 예시를 직접 따라가 봅시다. 각 단어가 2차원 벡터라고 가정합니다 (실제로는 수백 차원이지만 원리는 같습니다).

왕 = [4.0, 2.0]
남 = [3.0, 0.5]
여 = [1.0, 0.5]
...

의미 관계가 벡터의 덧셈 ・ 뺄셈으로 그대로 표현될 수 있다는 점이 임베딩의 놀라운 점입니다.

생성 계열:

기술입력 → 출력한마디로 요약대표 사례
Seq2Seq문장 → 문장읽는 쪽(Encoding)과 쓰는 쪽(Decoding)번역
GPT / LLM프롬프트 → 이어지는 텍스트"다음 단어" 예측을 통한 생성ChatGPT
T5 / BART텍스트 → 텍스트모든 태스크를 "문장 → 문장"으로 통일요약 ・ 문법 교정
멀티모달 LLM (VLM)이미지 → 텍스트 → 텍스트이미지를 "보고" 말로 대답도표 독해

많은 사람이 헷갈려 하는 BERT와 GPT의 차이를 명확히 하겠습니다.

  • 🤔 "둘 다 Transformer 기반인데 무엇이 다른가요?"

  • 출력이 다릅니다. BERT는 "문장 → 분류 ・ 추출 결과"를 내놓는 이해 계열 (빈칸 채우기로 학습하며, 전후 양방향을 봄)입니다. GPT는 "문장 → 이어지는 문장"을 내놓는 생성 계열 (다음 단어 예측으로 학습하며, 왼쪽에서 오른쪽으로 가는 단방향)입니다. **"읽기에 능숙한 BERT, 쓰기에 능숙한 GPT"**라고 기억하면 정리가 쉽습니다.

→→B 음성

음성은 입출력의 방향에 따라 역할이 결정됩니다. 텍스트 → 음성이면 합성, 음성 → 텍스트이면 인식입니다.

기술입력 → 출력한마디로 요약대표 사례
WaveNet조건(음소 등) → 음성 파형파형을 1샘플씩 생성자연스러운 읽어주기
TTS (Tacotron / VITS)텍스트 → 음성 파형음성 합성 파이프라인나레이션
Whisper음성 → 텍스트다국어를 고정밀도로 받아쓰기회의 자동 회의록

②-C 생성 모델의 "5가지 제작 방식" (기사의 핵심)

이 부분이 체계화의 핵심입니다. "노이즈로부터 이미지를 만든다"라고 한마디로 말해도, 제작 방식의 철학은 크게 5가지 계통으로 나뉩니다. 이는 생성 모델의 교과서적인 분류로, 이를 알면 개별 모델들을 단번에 정리할 수 있습니다.

용어를 두 가지만 준비하겠습니다.

우도 (Likelihood): "그 데이터가 해당 모델로부터 얼마나 나오기 쉬운가"에 대한 확률. 이를 정확하게 계산할 수 있는지 여부가 모델의 성격을 결정합니다. -
잠재 변수 (Latent Variable): 데이터 이면에 있는 "압축된 설계도". 예를 들어 얼굴 이미지라면 "각도·표정·헤어스타일"과 같은 소수의 수치.

이 관점에서 5가지 계통을 나열하면, 트레이드오프 (Trade-off)가 명확하게 보입니다.

제작 방식생성 방식 (한 줄 요약)우도 계산생성 속도품질·안정성대표 모델
자기회귀 (Autoregressive)요소를 하나씩 순차적으로 예측엄밀히 가능느림 (순차적)고품질·안정GPT, PixelCNN, WaveNet
VAE잠재 변수를 경유하여 압축·복원근사치만 가능빠름 (1회)흐릿해지기 쉬움·안정VAE, VQ-VAE
GAN생성기와 판별기의 경쟁계산 불가 (암묵적)빠름 (1회)선명하지만 불안정StyleGAN, CycleGAN
정규화 흐름 (Normalizing Flow)가역적인 변환으로 노이즈 ⇄ 데이터엄밀히 가능빠름중간 수준RealNVP, Glow
확산 (Diffusion)노이즈 제거를 수차례 반복근사 가능느림 (다단계) ※최고 품질·안정DDPM, Stable Diffusion, DiT

※ 확산 모델의 "느림"은 후술할 고속화 기법을 통해 개선되고 있습니다.

각 계통을 입출력과 "한 줄 직관"으로 파악합니다.

  • 자기회귀 (Autoregressive) (입력: 지금까지의 요소 → 출력: 다음 요소): 문장을 한 단어씩 쓰는 GPT와 같은 발상을 이미지 (PixelCNN)나 음성 (WaveNet)으로 확장한 것. 순서대로 만들기 때문에 확실하지만 느리다.
  • VAE (입력: 데이터/잠재 → 출력: 복원·생성): 데이터를 잠재 변수로 압축하고, 거기서 다시 되돌린다. 잠재 공간 (Latent Space)이 연속적이어서 "조금만 움직여도 얼굴이 부드럽게 변하는" 조작에 능숙하다. 단, 흐릿해지기 쉽다.
  • GAN (입력: 노이즈 → 출력: 이미지): "위조범 (생성기)」과 "감정사 (판별기)」를 경쟁시킨다. 선명하지만 학습이 불안정하다. 화풍 변환의 CycleGAN도 이 부류에 속한다.
  • 정규화 흐름 (Normalizing Flow) (입력: 노이즈 ⇄ 데이터 → 출력: 생성 + 엄밀한 확률): 변환을 모두 "가역적 (Reversible)"으로 설계하여, 생성과 확률 계산을 양립시킨다. 확률을 정확하게 내야 하는 이상 탐지 (Anomaly Detection) 등에서 강력하다.
  • 확산 (Diffusion) (입력: 노이즈 (+조건) → 출력: 이미지 등): 이미지를 조금씩 노이즈로 망가뜨린 뒤, 그 역재생을 학습한다. 현재의 주역이며, 고품질과 안정성을 모두 갖추고 있다.

여기서 자연스러운 의문이 생깁니다.

  • 🤔 "VAE는 생성 모델인데, 왜 이미지 생성의 주역이 아닌가요?"

→ 흐릿해지기 쉽기 때문입니다. VAE는 "가능한 답들을 평균 내는" 성질이 있어 세부 사항이 뭉개집니다 (자세한 내용은 아래 아코디언 참조). 하지만 Stable Diffusion 내부에서 이미지를 잠재 표현으로 압축하는 역할로서 지금도 현역으로 쓰이고 있습니다. -

  • 🤔 "확산 모델이 고품질이고 안정적이라면, 왜 GAN이 남아있나요?"

→ 확산 모델은 한 장을 만드는 데 수십 번의 계산이 필요하여 무겁기 때문입니다. 속도가 중요한 상황에서는 GAN이나 후술할 고속화 기법이 선택됩니다.

왜 VAE는 흐릿해지기 쉬운가

VAE는 "출력과 정답의 차이를 평균적으로 작게 만드는" 방식으로 학습하며, 잠재 분포에 제약을 겁니다. 이러한 성질 때문에 가능한 여러 답을 평균해 버리기 때문에, 세부 사항이 뭉개져 "흐릿함"이 발생합니다. 반면 GAN은 감정사를 속이기 위해 평균이 아닌 하나의 선명한 답을 내놓도록 유도됩니다.

확산 모델의 실용화와 고속화 (2022~2026)

확산 모델은 "무겁다"는 것이 약점이었으나, 최근 몇 년 사이 실용화와 고속화가 급격히 진행되었습니다.

  • Stable Diffusion (잠재 확산, 2022): 입력 = 텍스트 → 출력 = 이미지. **VAE로 이미지를 가벼운 잠재 표현(Latent Representation)으로 압축 → 그곳에서 확산(Diffusion) → 디코딩(Decoding)**하는 결합 기술. "VAE + 확산 + (다음 장의) CLIP"으로 구성되며, 부품의 조합의 좋은 예시입니다.
  • Consistency Models (2023): 입력 = 노이즈 → 출력 = 이미지. 노이즈에서 단번에 데이터로 옮기는 것을 학습하여, 수십 단계를 1~수 단계로 압축. 실시간 생성의 길을 열었습니다.
  • DiT (Diffusion Transformer): 확산의 핵심 엔진을 기존의 U-Net에서 Transformer로 교체한 것. 스케일링(Scaling)이 용이하며, 영상 생성 모델인 **Sora (2024~)**의 기반이 됩니다. "확산 × Transformer"라는 부품의 합류입니다.

3D 생성

사진으로부터 입체를 만드는 계통도 여기에 포함됩니다.

기술입력 → 출력한마디로대표 사례
NeRF다각도 사진 → 새로운 시점/3D사진으로부터 3D를 암묵적으로 재구성자유 시점 뷰
3D Gaussian Splatting다각도 사진 → 3D 장면명시적 표현으로 고속·고품질 3D즉시 걸어 다닐 수 있는 3D 공간

**3D Gaussian Splatting (2023)**은 장면을 무수히 많은 색이 있는 타원(Gaussian)의 집합으로 명시적으로 표현함으로써, NeRF보다 학습 및 렌더링을 가속화하고 실시간 표시를 실현한 후계 계열입니다.

③·④ 표현과 멀티모달(Multimodal): 종류를 넘나드는 다리

마지막으로, 서로 다른 종류의 데이터를 연결하는 모델입니다.

기술입력 → 출력한마디로대표 사례
CLIP이미지와 텍스트 → 공통 공간의 벡터이미지와 언어를 같은 공간에 배치텍스트로 이미지 검색
DALL-E 계열텍스트 → 이미지이해 + 생성을 통합한 완성품텍스트로부터 이미지 생성
AlphaFold아미노산 서열 → 입체 구조(3D)서열로부터 단백질의 형태를 예측신약 개발의 구조 분석

CLIP은 눈에 띄지 않지만 매우 중요합니다. "빨간 운동화"라는 텍스트와 그 사진을 같은 의미 공간의 가까운 위치에 둘 수 있기 때문에 텍스트로 이미지를 검색할 수 있으며, Stable Diffusion이 "프롬프트의 의미"를 이해하는 토대가 됩니다.

【전체상의 열쇠】 하나의 모델이라도 사용법에 따라 입출력은 변한다

지금까지 각 모델에 대해 "입력 → 출력"을 하나씩 적어왔지만, 사실 같은 모델이라도 사용법(모드)에 따라 입력과 출력은 달라집니다. "결국 어느 쪽인가?"라며 혼란스러워하기 쉬운 가장 큰 포인트이므로, 여기서 명시하겠습니다. **많은 모델은 "단일 기능의 상자"가 아니라, 조합에 따라 역할이 변하는 "부품 세트"**라고 파악하면 전체상이 훨씬 명확해집니다.

예: VAE는 "이미지 → 이미지"인가? 아니면 "노이즈 → 이미지"인가?

VAE는 **인코더 (이미지 → 숫자로 압축)**와 **디코더 (숫자 → 이미지로 복원)**라는 두 부품으로 이루어져 있습니다. 이 두 가지를 어떻게 사용하느냐에 따라 입출력이 달라집니다.

사용법입력출력목적
① 재구성이미지이미지 (복원판)학습 · 이상 탐지
② 생성노이즈 (잠재 벡터)이미지새로운 데이터 생성

즉, "VAE는 이미지를 넣으면 이미지가 나오는가?"라는 질문에 대한 답은, ①의 사용법이라면 YES (이미지 → 이미지)입니다. 하지만 VAE가 "생성 모델(Generative Model)"이라 불리는 이유는 ② 때문입니다. 인코더를 사용하지 않고, 디코더에 무작위 숫자를 넣으면 새로운 이미지가 나오기 때문입니다. "무(無)에서 이미지를 낳는 것"이 생성입니다.

왜 ②가 성립하느냐 하면, 학습을 통해 **"이미지의 의미가 담긴 연속적인 잠재 공간(Latent Space)"**을 만들어 두었기 때문입니다. 따라서 그 공간에서 적당히 한 점을 골라 디코더에 통과시키기만 해도 그럴듯한 이미지가 됩니다.

같은 현상은 다른 모델에서도 일어난다

VAE는 극단적인 예일 뿐, 주요 모델의 대부분은 여러 모드를 가집니다. 표의 "입력 → 출력"은 대표적인 한 가지 패턴일 뿐이라고 머릿속에 넣어두면 혼란을 피할 수 있습니다.

모델사용법 A사용법 B(사용법 C)
GAN노이즈 → 이미지 (생성)이미지 → 이미지 (CycleGAN 변환)
확산 모델 (Diffusion Model)노이즈 → 이미지 (생성)노이즈 + 텍스트 → 이미지 (조건부)손상된 이미지 → 복구 이미지
BERT문장 → 분류 레이블 (이해)문장 → 각 단어의 벡터 (임베딩)문장 → 빈칸 채우기 단어
Autoencoder데이터 → 복원 데이터데이터 → 잠재 벡터 (압축)

주의할 점 · 흔한 오해

  • 🤔
    "Transformer가 최강이라면, CNN이나 RNN은 이제 필요 없는 것 아닌가요?"

→ 꼭 그렇지는 않습니다. 소규모 데이터에서는 CNN이나 기존 방식이 승리하는 경우도 많으며, 저지연 (Low Latency)이 필요한 현장에서는 LSTM/GRU도 여전히 현역입니다. 게다가 확산 모델 (Diffusion Model)의 노이즈 제거 엔진 (U-Net)은 CNN 계열입니다. 오래된 부품은 새로운 시스템 안에서 계속 살아 숨 쉬고 있습니다.

  • 🤔
    "생성 AI (Generative AI) = LLM?"

→ 생성 AI는 훨씬 더 넓은 개념입니다. 이미지 (확산), 음성 (TTS), 3D (NeRF)도 생성 AI이며, LLM은 그중 언어 버전에 해당합니다.

  • 🤔
    "VAE는 시대에 뒤떨어졌나요?"

→ 아닙니다. 단독 이미지 생성에서는 주도권을 내주었지만, Stable Diffusion의 내부 압축기로서 지금도 핵심적으로 사용되고 있습니다.

  • 🤔
    "결국 어떤 생성 모델을 사용해야 하나요?"

→ 용도에 따라 다릅니다. 선명한 이미지를 고품질로 만들려면 확산 모델, **확률도 정확하게 내야 하는 이상 탐지 (Anomaly Detection)**라면 플로우 (Flow), 초고속으로 한 장을 뽑으려면 GAN이나 Consistency, 이미지와 언어를 같은 틀에서 다루려면 자기회귀 (Autoregressive) 모델로, '5가지 제작 방식' 표를 통해 역으로 찾아볼 수 있습니다.

요약

방대해 보이는 심층 학습 (Deep Learning) · 생성 AI (Generative AI)도 3가지 질문으로 하나의 지도에 담을 수 있습니다.

  • 무엇으로 만들어졌는가? (부품) — CNN / RNN / Transformer / Mamba / GNN
  • 어떻게 똑똑해졌는가? (학습법) — 자기지도 학습 (Self-Supervised Learning) → 파인튜닝 (Fine-tuning) / RLHF / LoRA
  • 무엇을 넣으면 무엇이 나오는가? (태스크) — 출력이 레이블이면 식별, 데이터 그 자체면 생성, 벡터면 표현, 같은 형태면 변환

그리고 생성 모델은 자기회귀 (Autoregressive) · VAE · GAN · 플로우 (Flow) · 확산 (Diffusion)의 5개 계통으로 파악합니다. 이것만으로도 새로운 모델을 보았을 때 "어느 계통의, 어떤 조합인가"라고 위치를 파악할 수 있습니다.

가장 큰 깨달음은 **"최신 모델의 대부분은 기존 부품의 조합이다"**라는 점입니다. Stable Diffusion이 VAE + 확산 + CLIP이었고, Sora가 확산 + Transformer (DiT)였던 것처럼, 지도 위의 점과 점이 연결되면 이해 속도가 비약적으로 빨라집니다.

다음 단계

관심 있는 기술을 딱 하나만 골라, 그 원 논문(Original Paper)이나 공식 구현체를 깊이 파고들어 보는 것을 추천합니다. 지도로 위치를 파악한 뒤에 세부 사항으로 들어가는 것이 길을 잃지 않는 방법입니다!

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0