본문으로 건너뛰기

© 2026 Molayo

Lilian헤드라인2026. 04. 29. 14:47

데이터가 부족할 때 학습하기 Part 3: 데이터 생성

요약

본 기사는 데이터 부족 문제를 해결하기 위한 세 번째 접근 방식인 '데이터 생성'에 대해 다룹니다. 데이터를 확보할 수 없을 때, 기존 샘플을 변형하여 새로운 데이터를 만드는 증강(Augmentation) 방법과, 강력한 사전 훈련된 모델(Pre-trained Model)을 활용하여 완전히 새로운 데이터 포인트를 생성하는 방법을 설명합니다.

핵심 포인트

  • 데이터 부족 문제 해결을 위해 '증강된 데이터'와 '새로운 데이터' 두 가지 접근 방식을 제시한다.
  • 데이터 증강은 기존 샘플의 핵심 의미를 유지하면서 입력 형식(텍스트, 시각적 외관 등)을 변형하는 것을 목표로 한다.
  • 데이터 포인트가 거의 없을 경우, 대규모 사전 훈련 언어 모델(LLM)을 활용하여 새로운 데이터를 생성할 수 있다.
  • 퓨샷 프롬프팅은 추가 학습 없이도 LLM이 컨텍스트 내에서 효과적으로 학습하게 하는 방법이다.

데이터가 부족할 때 학습하기 시리즈의 Part 3 입니다 (이전: Part 1 과 Part 2). 훈련을 위한 합성 데이터를 생성하는 두 가지 접근 방식을 살펴보겠습니다. 증강된 데이터 (Augmented data): 기존 훈련 샘플 세트를 주어진 경우, 핵심 속성을 잃지 않고 새로운 데이터 포인트를 도출하기 위해 다양한 증강 (augmentation), 왜곡 (distortion) 및 변환 (transformation) 을 적용할 수 있습니다. 우리는 이전의 대비 학습 (contrastive learning) 관련 포스팅에서 텍스트와 이미지에 대한 일련의 증강 방법을 다뤘습니다. 포스팅의 완결성을 위해 여기에 데이터 증강 섹션을 일부 수정하여 재현합니다. 새로운 데이터 (New data): 데이터 포인트가 적거나 아예 없는 경우, 강력한 사전 훈련된 모델을 활용하여 여러 개의 새로운 데이터 포인트를 생성할 수 있습니다. 이는 최근 몇 년 동안 대형 사전 훈련 언어 모델 (LM) 의 빠른 진전으로 인해 특히 사실입니다. 퓨샷 프롬프팅 (few-shot prompting) 은 추가 학습 없이 컨텍스트 내에서 LM 이 학습하는 데 효과적임이 입증되었습니다. 데이터 증강 (Data Augmentation): 데이터 증강의 목표는 의미론적 의미가 변하지 않으면서 입력 형식 (예: 텍스트 용어, 시각적 외관) 을 수정하는 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Lilian Weng Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0