Lilian헤드라인2026. 04. 29. 14:47

데이터가 부족할 때 학습하기 Part 3: 데이터 생성

요약

본 기사는 데이터 부족 문제를 해결하기 위한 세 번째 접근 방식인 '데이터 생성'에 대해 다룹니다. 데이터를 확보할 수 없을 때, 기존 샘플을 변형하여 새로운 데이터를 만드는 증강(Augmentation) 방법과, 강력한 사전 훈련된 모델(Pre-trained Model)을 활용하여 완전히 새로운 데이터 포인트를 생성하는 방법을 설명합니다.

핵심 포인트

데이터 부족 문제 해결을 위해 '증강된 데이터'와 '새로운 데이터' 두 가지 접근 방식을 제시한다.
데이터 증강은 기존 샘플의 핵심 의미를 유지하면서 입력 형식(텍스트, 시각적 외관 등)을 변형하는 것을 목표로 한다.
데이터 포인트가 거의 없을 경우, 대규모 사전 훈련 언어 모델(LLM)을 활용하여 새로운 데이터를 생성할 수 있다.
퓨샷 프롬프팅은 추가 학습 없이도 LLM이 컨텍스트 내에서 효과적으로 학습하게 하는 방법이다.

데이터가 부족할 때 학습하기 시리즈의 Part 3 입니다 (이전: Part 1 과 Part 2). 훈련을 위한 합성 데이터를 생성하는 두 가지 접근 방식을 살펴보겠습니다. 증강된 데이터 (Augmented data): 기존 훈련 샘플 세트를 주어진 경우, 핵심 속성을 잃지 않고 새로운 데이터 포인트를 도출하기 위해 다양한 증강 (augmentation), 왜곡 (distortion) 및 변환 (transformation) 을 적용할 수 있습니다. 우리는 이전의 대비 학습 (contrastive learning) 관련 포스팅에서 텍스트와 이미지에 대한 일련의 증강 방법을 다뤘습니다. 포스팅의 완결성을 위해 여기에 데이터 증강 섹션을 일부 수정하여 재현합니다. 새로운 데이터 (New data): 데이터 포인트가 적거나 아예 없는 경우, 강력한 사전 훈련된 모델을 활용하여 여러 개의 새로운 데이터 포인트를 생성할 수 있습니다. 이는 최근 몇 년 동안 대형 사전 훈련 언어 모델 (LM) 의 빠른 진전으로 인해 특히 사실입니다. 퓨샷 프롬프팅 (few-shot prompting) 은 추가 학습 없이 컨텍스트 내에서 LM 이 학습하는 데 효과적임이 입증되었습니다. 데이터 증강 (Data Augmentation): 데이터 증강의 목표는 의미론적 의미가 변하지 않으면서 입력 형식 (예: 텍스트 용어, 시각적 외관) 을 수정하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

데이터가 부족할 때 학습하기 Part 3: 데이터 생성

요약

핵심 포인트

댓글