어려운 부분은 보존하고 나머지는 재생성하기: 확산 모델(Diffusion Models)을 이용한 불확실성 가이드 기반 합성 훈련 데이터 증강
요약
Diffusion Models를 활용하여 시맨틱 세그멘테이션 모델의 성능을 높이는 새로운 데이터 증강 전략을 제안합니다. 모델의 예측 엔트로피를 통해 불확실한 영역을 식별하고, 해당 부분의 컨텍스트만 인페인팅하여 라벨 불일치 문제를 해결합니다.
핵심 포인트
- 불확실성 가이드 기반의 합성 컨텍스트 증강 전략 제안
- Diffusion Models를 이용한 정교한 인페인팅으로 라벨 유효성 보존
- 희귀 클래스(버스, 기차 등)에서 mIoU 성능 향상 입증
- 기존의 무차별적 증강 방식 대비 픽셀 정보성 극대화
시맨틱 세그멘테이션 (Semantic segmentation) 모델은 데이터 희소성(data sparsity)과 드물거나 시각적으로 다양한 영역, 예를 들어 항공 데이터나 자율 주행 모빌리티 데이터에서의 밀집 영역 또는 작은 객체 등으로 인해 어려움을 겪습니다. 합성 증강 (synthetic augmentation)은 매력적인 해결책이지만, 새로운 라벨링된 데이터를 직접 생성하는 것은 라벨과 생성된 픽셀 간의 불일치(misalignment) 위험을 초래합니다. 이 문제에 대한 기존 솔루션들은 종종 외부 모델에 의존하거나, 모든 전경 객체 또는 전체 배경을 무차별적으로 증강하는 것과 같은 거친 휴리스틱 (coarse heuristics)을 채택하여 정보가 없는 픽셀에 용량을 낭비합니다. 이를 해결하기 위해, 우리는 외부 가드레일(guardrails) 없이도 라벨 유효성을 엄격히 보존하고 합성 샘플당 픽셀 정보성을 효율적으로 극대화하는 불확실성 가이드 기반 합성 컨텍스트 증강 (uncertainty-guided synthetic context augmentation) 전략을 제안합니다. 베이스라인 세그멘터 (baseline segmenter)의 예측 엔트로피 (predictive entropy)를 사용하여, 우리는 불확실한 시맨틱 영역을 식별하고 보완적인 시각적 컨텍스트만을 인페인팅 (inpaint)합니다. 이 합성 데이터로 세그멘터를 미세 조정 (fine-tuning)할 때, 우리는 인페인팅된 영역을 제외하고 원래의 픽셀에 대해서만 손실 (loss)을 계산합니다. 이는 수정되지 않은 불확실한 영역에 학습을 집중시키는 동시에, 해당 영역을 새로운 컨텍스트에서 제시합니다. 우리는 Cityscapes, UAVID, BDD100K 데이터셋에서 상당한 mIoU 이득을 입증하였으며, 특히 버스, 기차 또는 (항공 관점에서의) 자동차와 같은 희귀하고 어려운 클래스에서 가장 큰 이득을 보였습니다. 우리의 결과는 불확실성 가이드 컨텍스트 증강이 복잡한 데이터셋에서 세그멘테이션 성능을 향상시키는 매우 효과적인 지렛대임을 보여주며, 코드는 https://github.com/XITASO/Preserve-the-Hard-Regenerate-the-Rest 에서 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기