어려운 부분은 보존하고 나머지는 재생성하기: 확산 모델(Diffusion Models)을 이용한 불확실성 가이드 기반 합성 훈련 데이터 증강

시맨틱 세그멘테이션 (Semantic segmentation) 모델은 데이터 희소성(data sparsity)과 드물거나 시각적으로 다양한 영역, 예를 들어 항공 데이터나 자율 주행 모빌리티 데이터에서의 밀집 영역 또는 작은 객체 등으로 인해 어려움을 겪습니다. 합성 증강 (synthetic augmentation)은 매력적인 해결책이지만, 새로운 라벨링된 데이터를 직접 생성하는 것은 라벨과 생성된 픽셀 간의 불일치(misalignment) 위험을 초래합니다. 이 문제에 대한 기존 솔루션들은 종종 외부 모델에 의존하거나, 모든 전경 객체 또는 전체 배경을 무차별적으로 증강하는 것과 같은 거친 휴리스틱 (coarse heuristics)을 채택하여 정보가 없는 픽셀에 용량을 낭비합니다. 이를 해결하기 위해, 우리는 외부 가드레일(guardrails) 없이도 라벨 유효성을 엄격히 보존하고 합성 샘플당 픽셀 정보성을 효율적으로 극대화하는 불확실성 가이드 기반 합성 컨텍스트 증강 (uncertainty-guided synthetic context augmentation) 전략을 제안합니다. 베이스라인 세그멘터 (baseline segmenter)의 예측 엔트로피 (predictive entropy)를 사용하여, 우리는 불확실한 시맨틱 영역을 식별하고 보완적인 시각적 컨텍스트만을 인페인팅 (inpaint)합니다. 이 합성 데이터로 세그멘터를 미세 조정 (fine-tuning)할 때, 우리는 인페인팅된 영역을 제외하고 원래의 픽셀에 대해서만 손실 (loss)을 계산합니다. 이는 수정되지 않은 불확실한 영역에 학습을 집중시키는 동시에, 해당 영역을 새로운 컨텍스트에서 제시합니다. 우리는 Cityscapes, UAVID, BDD100K 데이터셋에서 상당한 mIoU 이득을 입증하였으며, 특히 버스, 기차 또는 (항공 관점에서의) 자동차와 같은 희귀하고 어려운 클래스에서 가장 큰 이득을 보였습니다. 우리의 결과는 불확실성 가이드 컨텍스트 증강이 복잡한 데이터셋에서 세그멘테이션 성능을 향상시키는 매우 효과적인 지렛대임을 보여주며, 코드는 https://github.com/XITASO/Preserve-the-Hard-Regenerate-the-Rest 에서 제공됩니다.

Insights

어려운 부분은 보존하고 나머지는 재생성하기: 확산 모델(Diffusion Models)을 이용한 불확실성 가이드 기반 합성 훈련 데이터 증강

요약

핵심 포인트

댓글

F-G-T-W: 타당성 게이트(Feasibility Gate)는 어떻게 탄생했는가

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)