본문으로 건너뛰기

© 2026 Molayo

Chip헤드라인2026. 05. 06. 23:45

다중모달리티와 대형 다중모달 모델 (LMMs)

요약

전통적인 ML 모델이 단일 데이터 모달리티에 국한되었던 것과 달리, 인간의 자연스러운 지능은 텍스트, 이미지, 오디오 등 여러 모달리티를 동시에 처리합니다. 이 글은 이러한 다중모달 데이터를 통합하는 LMM(Large Multimodal Models)의 중요성을 강조하며, GPT-4V와 같은 시스템을 통해 LLM에 추가 모달리티를 결합하여 AI 연구의 최전선이 되고 있음을 설명합니다. 또한 CLIP, Flamingo, BLIP-2 등 주요 아키텍처와 어댑터 기술을 소개하며 다중모달 학습 및 출력을 위한 핵심 원리와 발전 방향을 심도 있게 다룹니다.

핵심 포인트

  • 다중모달리티(Multimodality)는 AI가 현실 세계의 복잡한 문제를 해결하는 데 필수적이며, 인간처럼 여러 감각 정보를 통합적으로 처리할 수 있어야 합니다.
  • LMM(Large Multimodal Models)은 LLM에 이미지, 오디오 등 추가 모달리티를 결합하여 성능을 극대화한 모델로, 현재 AI 연구의 핵심 트렌드입니다.
  • 다중모달 시스템은 단순히 입력/출력이 다른 모달리티일 뿐만 아니라, 입력이 다중모달이거나 출력이 다중모달인 경우까지 포괄합니다.
  • CLIP과 Flamingo 같은 선구적인 모델들은 대비 학습(Contrastive Learning) 및 전용 인코더를 활용하여 LMM의 기본 원리를 확립했으며, BLIP-2와 같은 최신 연구는 효율적인 어댑터 기술을 통해 성능을 개선하고 있습니다.

오랜 시간 동안 각 머신러닝 (ML) 모델은 하나의 데이터 모달리티에서만 작동했습니다. 텍스트 (번역, 언어 모델링), 이미지 (객체 감지, 이미지 분류), 또는 오디오 (음성 인식) 등입니다. 그러나 자연스러운 지능은 단일 모달리티에만 국한되지 않습니다. 인간은 읽을 수 있고, 말할 수 있으며, 볼 수 있습니다. 우리는 음악을 들으며 휴식을 취하고 이상한 소리를 들어 위험을 감지합니다. 다중모달 데이터를 다루는 능력은 우리나 어떤 AI 가 현실 세계에서 작동하는 데 필수적입니다. OpenAI 는 GPT-4V 시스템 카드에서 "LLM (대형 언어 모델) 에 추가 모달리티 (예: 이미지 입력) 를 통합하는 것은 일부 연구 개발자들에 의해 AI 연구 및 개발의 핵심 최전선으로 간주된다"고 언급했습니다. LLM (Large Language Models) 에 추가 모달리티를 통합하면 LMM (Large Multimodal Models) 이 됩니다. 모든 다중모달 시스템이 LMM 이라는 것은 아닙니다. 예를 들어, Midjourney, Stable Diffusion, Dall-E 와 같은 텍스트-이미지 모델은 다중모달이지만 언어 모델 구성 요소가 없습니다. 다중모달은 다음 중 하나 이상의 것을 의미할 수 있습니다: 입력과 출력이 다른 모달리티입니다 (예: 텍스트-이미지, 이미지-텍스트) 입력이 다중모달입니다 (예: 텍스트와 이미지를 모두 처리할 수 있는 시스템) 출력이 다중모달입니다 (예: 텍스트와 이미지를 모두 생성할 수 있는 시스템) 이 포스트는 일반적인 다중모달 시스템을 포함하여 LMM 을 다룹니다. 3 부분으로 구성됩니다. Part 1 은 다중모달리티의 맥락을 다루며, 왜 다중모달인지, 다른 데이터 모달리티, 그리고 다중모달 작업 유형을 포함합니다. Part 2 는 CLIP 이 많은 미래의 다중모달 시스템의 기초를 마련하는 예와 LMM 이 등장한 놀라운 성능을 가진 Flamingo 를 사용하여 다중모달 시스템의 기본 원리를 논의합니다. Part 3 은 BLIP-2, LLaVA, LLaMA-Adapter V2, LAVIN 등 새로운 다중모달 시스템을 포함하여 LMM 의 일부 활발한 연구 분야를 다루며, 다중모달 출력 생성과 더 효율적인 다중모달 훈련을 위한 어댑터 등을 다룹니다. 이 포스트는 길습니다. 가장 관심 있는 섹션으로 건너뛰셔도 좋습니다. ⚠ 모호한 용어 ⚠ 다중모달 데이터는 또한 다중모달 분포를 의미할 수 있습니다 (예: 쌍모달 분포), 이는 이 포스트의 다중모달 데이터와 다릅니다. 목차 Part 1. Multimodal 이해 …. 왜 Multimodal …. 데이터 모달리티 …. Multimodal 작업 …….. Generation …….. Vision-language understanding Part 2. Multimodal 훈련의 기초 …. CLIP: Contrastive Language-Image Pre-training …….. CLIP 의 고수준 아키텍처 …….. 자연어 감독 …….. 대비 학습 …….. CLIP 응용 …. Flamingo: LMM 의 여명 …. Flamingo 의 고수준 아키텍처 …….. 데이터 …….. Flamingo 의 비전 인코더 …….. Flamingo 의 언어 모델 …. TL;DR: CLIP vs. Flamingo Part 3. LMM 에 대한 연구 방향 …. 더 많은 데이터 모달리티 통합 …. Instruction-following 을 위한 다중모달 시스템 …. 더 효율적인 다중모달 훈련을 위한 어댑터 …. Multimodal 출력 생성 결론 리소스 Part 1. Multimodal 이해 왜 Multimodal 다중모달리티가 없이는 불가능한 사용 사례가 많습니다. 특히 의료, 로봇공학, 전자상거래, 소매, 게임 등 데이터 모달리티의 혼합을 다루는 산업에서 더욱 그렇습니다. 다중모달리티가 의료에 어떻게 사용되는지에 대한 예입니다. 이미지 출처: Multimodal biomedical AI (Acosta et al., Nature Medicine 2022) 뿐만 아니라 다른 모달리티의 데이터를 통합하면 모델 성능을 향상시킬 수 있습니다. 텍스트와 이미지를 모두 학습할 수 있는 모델이 텍스트나 이미지만 학습할 수 있는 모델보다 더 잘 수행해야 하지 않나요? 다중모달 시스템

현재 가장 잘 작동하는 방식으로 상호작용할 수 있는 더 유연한 인터페이스를 제공할 수 있습니다. 타이핑, 대화, 또는 카메라를 무언가를 향하여 가리키는 방식으로 질문을 할 수 있다는 것을 상상해 보세요. 특히 흥미로운 사용 사례 중 하나는 다중 모달리티가 시각 장애인을 인터넷 탐색과 실제 세계 내비게이션에도 활용한다는 것입니다. GPT-4V 데이터에서 다루는 다양한 모달리티 데이터 모드에는 텍스트, 이미지, 오디오, 표 데이터 등이 있습니다. 하나의 데이터 모달리티는 다른 데이터 모달리티로 표현되거나 근사될 수 있습니다. 예를 들어: 오디오는 이미지 (멜 스펙트로그램) 로 표현될 수 있습니다. 언어는 텍스트로 전사되지만, 텍스트 만의 표현은 음량, 어조, 휴지 등 정보를 잃습니다. 이미지는 벡터로 표현될 수 있으며, 이는 다시 텍스트 토큰의 시퀀스로 평면화되어 표현될 수 있습니다. 비디오는 이미지와 오디오의 시퀀스입니다. 오늘날 머신러닝 모델은 비디오를 이미지 시퀀스로 대개 처리합니다. 이는 심각한 한계이며, 소리가 시각만큼 중요하다는 것을 증명했습니다. 88% 의 틱톡 사용자가 소리가 틱톡 경험을 필수적이라고 밝혔습니다. 텍스트는 사진을 찍기만 하면 이미지로 표현될 수 있습니다. 데이터 테이블은 차트로 변환될 수 있으며, 이는 이미지입니다. 다른 데이터 모달리티는 어떻게 되나요? 모든 디지털 데이터 형식은 비트열 (0 과 1 의 문자열) 또는 바이트열로 표현될 수 있습니다. 비트열이나 바이트열을 효과적으로 학습할 수 있는 모델은 매우 강력하며, 어떤 데이터 모달리티에서도 학습할 수 있습니다. 우리는 그래프와 3D 자산과 같은 다루지 않은 다른 데이터 모달리티도 있습니다. 또한 향기 (smell) 와 촉각 (haptics) 을 표현하는 형식도 다루지 않았습니다. 오늘날 머신러닝에서 오디오는 텍스트의 음성 기반 대안으로 여전히 주로 다뤄집니다. 오디오의 가장 일반적인 사용 사례는 여전히 음성 인식 (speech-to-text) 과 음성 합성 (text-to-speech) 입니다. 음성 오디오 사용 사례, 예를 들어 음악 생성은 아직 매우 니치입니다. HuggingFace 의 가짜 Drake & Weeknd 노래와 MusicGen 모델을 확인해 보세요. 이미지는 모델 입력을 표현하는 가장 다용도 형식이며, 텍스트, 표 데이터, 오디오를 표현하고 일정 부분 비디오를 사용할 수 있습니다. 또한 텍스트 데이터보다 훨씬 많은 시각 데이터가 있습니다. 우리는 오늘날 사진과 비디오를 끊임없이 촬영하는 전화기와 웹캠을 가지고 있습니다. 텍스트는 모델 출력의 훨씬 더 강력한 모달리티입니다. 이미지 생성 모델을 사용할 수 있는 것은 이미지만 생성할 수 있지만, 텍스트 생성 모델을 사용할 수 있는 것은 요약, 번역, 추론, 질문 답변 등 많은 작업에 사용될 수 있습니다. 간단히 하기 위해 우리는 2 개의 모달리티에 집중합니다: 이미지와 텍스트. 학습은 다른 모달리티에 어느 정도 일반화될 수 있습니다. 다중 모달리티 작업 다중 모달리티 시스템을 이해하려면 그들이 해결하려는 작업을 살펴보는 것이 도움이 됩니다. 문헌에서 저는 일반적으로 시각 언어 작업을 생성과 비전-언어 이해 (VLU) 로 2 개의 그룹으로 분류합니다. 이는 생성을 필요로 하지 않는 모든 작업을 포괄하는 용어입니다. 이 두 그룹 사이의 선은 모호하며, 답변을 생성할 수 있는 것은 이해도 필요하기 때문입니다. 생성 생성 작업의 경우 출력은 단일 모달리티 (예: 텍스트, 이미지, 3D 렌더링) 또는 다중 모달리티일 수 있습니다. 오늘날 단일 모달리티 출력이 일반적이지만, 다중 모달리티 출력은 아직 형성 중입니다. 우리는 이 포스트의 끝에 다중 모달리티 출력을 논의할 것입니다. 이미지 생성 (텍스트-이미지 합성) 이 범주는 간단합니다. 예

Dall-E, Stable Diffusion, 그리고 Midjourney.

텍스트 생성 (Text generation)
일반적인 텍스트 생성 작업 중 하나는 시각적 질문 답변 (Visual Question Answering) 입니다. 텍스트만으로 컨텍스트에 의존하지 않고, 모델에 텍스트와 이미지를 모두 제공할 수 있습니다. 카메라를 아무것이나 가리키고 "내 차가 출발하지 않습니다. 무엇이 문제인가요?", "이 요리를 어떻게 만들나요?", 또는 "이 밈은 무엇을 의미하나요?" 같은 질문을 할 수 있다고 상상해 보세요. 또 다른 일반적인 사용 사례는 이미지 캡션 생성 (image captioning) 으로, 이는 텍스트 기반 이미지 검색 시스템의 일부로 사용될 수 있습니다. 조직은 제품 이미지, 그래프, 디자인, 팀 사진, 홍보 자료 등 수백만 장, 아니 수십억 장의 이미지를 보유할 수 있습니다. AI 는 자동으로 캡션과 메타데이터를 생성하여 원하는 정확한 이미지를 찾는 것을 더 쉽게 만들 수 있습니다.

시각 - 언어 이해 (Vision-language understanding)
우리는 두 가지 작업 유형인 분류 (classification) 와 텍스트 기반 이미지 검색 (TBIR) 으로 확대해 보겠습니다.

분류 (Classification)
분류 모델은 사전 결정된 클래스 목록에 속하는 출력만 생성할 수 있습니다. 이는 고정된 결과의 수에만 관심이 있을 때 작동합니다. 예를 들어, OCR 시스템은 시각적 데이터가 알려진 문자 중 하나 (예: 숫자나 글자) 를 예측할 필요만 있습니다.

참고 사항 : OCR 시스템은 문자 단위로 데이터를 처리합니다. 더 넓은 컨텍스트를 이해할 수 있는 시스템과 함께 사용될 경우, "어떤 교과서, 계약서, 조립 지침 등" 을 "대화" 할 수 있는 것과 같은 사용 사례를 개선할 수 있습니다. GPT-4V 를 이용한 문서 처리 (Document processing with GPT-4V). 모델의 실수가 빨간색으로 강조되어 있습니다.

분류와 관련된 작업 중 하나는 이미지 - 텍스트 검색 (image-to-text retrieval) 입니다: 이미지를 주어진 사전 정의된 텍스트 풀에서 가장 이미지에 수반될 가능성이 높은 텍스트를 찾습니다. 이는 제품 이미지 검색에 도움이 될 수 있습니다, 즉 사진에서 제품 리뷰를 검색하는 것입니다.

텍스트 기반 이미지 검색 (Text-based image search)
이미지 검색은 검색 엔진뿐만 아니라 모든 내부 이미지와 문서를 검색할 수 있는 기업에도 중요합니다. 일부 사람들은 텍스트 기반 이미지 검색을 "텍스트 - 이미지 검색"이라고 부릅니다. 텍스트 기반 이미지 검색에는 여러 접근 방식이 있습니다. 두 가지 방법은 다음과 같습니다:

  1. 각 이미지에 캡션과 메타데이터를 생성합니다: 수동 또는 자동 (텍스트 생성의 이미지 캡션 참조).
  2. 주어진 텍스트 쿼리에 대해, 캡션/메타데이터가 이 텍스트 쿼리에 가장 가까운 이미지를 찾습니다.
  3. 이미지와 텍스트 모두에 대한 통합 임베딩 공간을 훈련합니다: 주어진 텍스트 쿼리에 대해 이 쿼리의 임베딩을 생성하고, 이 임베딩과 가장 가까운 모든 이미지를 찾습니다.

두 번째 접근 방식은 더 유연하며, 저는 이것이 더 널리 사용될 것이라 믿습니다. 이 접근 방식은 시각 및 언어 모두에 대한 강력한 통합 임베딩 공간을 필요로 하며, OpenAI 의 CLIP 이 개발한 것과 같습니다.

Part 2. 멀티모달 훈련의 기초 (Fundamentals of Multimodal Training)
많은 훌륭한 멀티모달 시스템이 존재하기 때문에, 이 포스트를 작성하는 데는 어떤 시스템을 집중할지 선택하는 것이 도전입니다. 결국 저는 두 모델을 집중하기로 결정했습니다: CLIP(2021) 과 Flamingo(2022). 이는 중요성뿐만 아니라 공개 세부 사항의 명확성과 접근성 때문입니다.

CLIP 은 0-샷 및 퓨-샷 학습으로 여러 이미지 분류 작업에 일반화할 수 있는 첫 번째 모델이었습니다.
Flamingo 는 오픈 엔드 응답을 생성할 수 있는 첫 번째 대형 멀티모달 모델이 아니었습니다 (Salesforce 의 BLIP 가 3 개월 전에 나왔습니다). 그러나 Flamingo 의 강력한 성능은 일부 사람들이 이를 멀티모달 도메인에서의 GPT-3 모멘트로 간주하게 만들었습니다.

이 두 모델은 더 오래되었지만, 그들이 사용하는 많은 기술은 여전히 오늘 관련성이 있습니다. 저는 이 포스트를 계속할 것입니다."

새로운 모델 이해의 기초가 됩니다. 멀티모달 공간은 빠르게 진화하고 있으며 많은 새로운 아이디어가 개발되고 있습니다. 우리는 Part 3 에서 이러한 새로운 모델을 다룰 것입니다. 고수준으로 보면, 멀티모달 시스템은 다음과 같은 구성 요소로 이루어집니다: 각 데이터 모달리티 (데이터 유형) 에 대한 인코더를 사용하여 해당 모달리티의 데이터를 위한 임베딩을 생성합니다. 서로 다른 모달리티의 임베딩을 동일한 멀티모달 임베딩 공간으로 정렬하는 방법입니다. [생성 모델만] 텍스트 응답을 생성하기 위한 언어 모델입니다. 입력이 텍스트와 시각적 데이터 모두를 포함할 수 있으므로, 언어 모델이 텍스트뿐만 아니라 시각적 데이터에 대한 조건부 응답을 생성할 수 있도록 하는 새로운 기법이 필요합니다. 이상적으로는 이러한 구성 요소가 가능한 한 사전 학습되고 재사용되어야 합니다.

CLIP: Contrastive Language-Image Pre-training (대조적 언어 - 이미지 사전 학습)
CLIP 의 핵심 기여는 텍스트와 이미지 등 서로 다른 모달리티의 데이터를 공유하는 임베딩 공간으로 매핑할 수 있다는 능력입니다. 이 공유 멀티모달 임베딩 공간은 텍스트 - 이미지 및 이미지 - 텍스트 작업을 훨씬 더 쉽게 만듭니다. 이러한 멀티모달 임베딩 공간을 학습하는 과정은 또한 강력한 이미지 인코더를 생성하여 CLIP 을 많은 이미지 분류 작업에서 경쟁력 있는 제로샷 (zero-shot) 성능을 달성하게 했습니다. 이 강력한 이미지 인코더는 이미지 생성, 시각적 질문 답변, 텍스트 기반 이미지 검색 등 다른 여러 작업을 수행할 수 있습니다. Flamingo 와 LLaVa 는 CLIP 을 이미지 인코더로 사용합니다. DALL-E 는 CLIP 을 생성된 이미지를 재순위 (rerank) 하기 위해 사용합니다. GPT-4V 가 CLIP 을 사용하는지 명확하지 않습니다.

제 0 이미지 분류 (Zero-shot image classification) with CLIP
CLIP 은 자연어 감독 학습과 대조적 학습을 활용하여 데이터 규모를 확장하고 훈련 효율성을 높일 수 있었습니다. 우리는 이러한 두 기법이 어떻게 작동하는지 다룰 것입니다.

CLIP 의 고수준 아키텍처
CLIP 의 아키텍처는 인코더와 투영 행렬이 모두 처음부터 함께 훈련됩니다. 훈련 목표는 올바른 (이미지, 텍스트) 쌍의 유사도 점수를 최대화하고 잘못된 쌍의 유사도 점수를 최소화하는 것입니다 (대조적 학습). 이미지 인코더에 대해 저자들은 ResNet 과 ViT 를 실험했습니다. 가장 성능이 좋은 모델은 ViT-L/14@336px 입니다: Large vision transformer (ViT-L) 14 patches (각 이미지는 14x14 픽셀 패치/서브이미지로 나뉜) 로 336x336 픽셀 입력.

텍스트 인코더에 대해 CLIP 은 GPT-2 와 유사한 Transformer 모델을 사용합니다. 기본 모델은 8 개의 attention heads 가 있는 63M 파라미터만 가지고 있습니다. 저자들은 CLIP 의 성능이 텍스트 인코더의 용량에 덜 민감하다고 발견했습니다.

이미지 인코더와 텍스트 인코더가 생성한 임베딩은 두 투영 행렬 W_v 와 W_l 을 사용하여 동일한 임베딩 공간으로 투영됩니다. 이미지 임베딩 V_i 가 주어지면, 해당 멀티모달 임베딩은 W_vV_i 로 계산됩니다. 텍스트 임베딩 L_i 가 주어지면, 해당 멀티모달 임베딩은 W_lL_i 로 계산됩니다.

사람들이 CLIP 임베딩이라고 할 때, 이는 멀티모달 임베딩이나 CLIP 의 이미지 인코더가 생성한 임베딩 중 하나를 의미합니다.

자연어 감독 학습 (Natural language supervision)
이미지 모델은 수년 동안 수동으로 주석 처리된 (이미지, 텍스트) 데이터셋 (예: ImageNet, MS COCO) 으로 훈련되었습니다. 이는 확장 불가능합니다. 수동 주석 처리는 시간과 비용이 많이 듭니다. CLIP 논문에서는 당시 이용 가능한 (이미지, 텍스트) 데이터셋 중 어느 것이 충분히 크고 품질이 좋았다고 언급하지 않았습니다. 그들은 4 억 (image, text) 쌍으로 구성된 자체 데이터셋을 만들었습니다.

50 만 개의 쿼리 목록을 구성합니다. 쿼리는 일반적인 단어, bigrams, 제목입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Chip Huyen Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0