Pix2Pix-Hybrid: 다채널 조건부 설정 및 약한 속성 감독을 통한 구조 가이드형 Hajj 군중 이미지의 조건부 합성
요약
Hajj 성지 순례 장면의 데이터 부족 문제를 해결하기 위해 구조적 단서와 문맥적 속성을 활용하는 하이브리드 GAN 모델 Pix2Pix-Hybrid를 제안합니다. 이 모델은 고해상도 합성 데이터셋 CrowdH를 생성하여 군중 계수 모델의 성능을 향상시키는 데 기여합니다.
핵심 포인트
- Pix2Pix 기반의 8채널 입력 U-Net 생성기 제안
- 구조적 단서(edges, grayscale)와 문맥적 속성 결합
- 다중 스케일 PatchGAN 판별기를 통한 세부 질감 포착
- 합성 데이터셋 CrowdH를 통한 군중 계수 모델 성능 개선
Hajj 성지 순례 장면을 위한 정확한 군중 계수 (crowd-counting) 모델을 개발하는 것은 도메인 특화된 주석 처리된 이미지(annotated images)가 부족하고, 대규모 모임 중의 데이터 수집이 개인정보 보호 문제를 일으키기 때문에 여전히 어려운 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 본 논문은 구조 가이드형 Hajj 군중 이미지 합성 및 데이터 증강 (data augmentation)을 위한 하이브리드 조건부 GAN인 Pix2Pix-Hybrid (P2P-H)를 제안합니다. P2P-H는 Pix2Pix를 기반으로 하며, 구조적 단서 (edges 및 grayscale)와 문맥적 속성 (crowd density 및 time of day)을 공동으로 인코딩하는 8개의 입력 채널을 조건으로 하는 U-Net 생성기 (generator)를 채택합니다. 밀집된 장면에서 세부적인 질감을 포착하기 위해, 이 프레임워크는 서로 다른 해상도에서 작동하는 두 개의 다중 스케일 PatchGAN 판별기 (discriminators)를 통합합니다. 학습 절차는 적대적 (adversarial), 지각적 (perceptual), 특징 매칭 (feature-matching) 목적 함수를 적응형 데이터 증강 및 안정화 전략과 결합합니다. 모델은 60개의 공개 비디오 소스에서 수집된 993개의 실제 Hajj 프레임으로 학습되었으며, 수동 라벨링 노력을 줄이기 위해 조건부 속성은 자동으로 도출되었습니다. 이 프레임워크를 사용하여 우리는 10,000개의 고해상도 Hajj 군중 이미지로 구성된 합성 데이터셋인 CrowdH를 구축했습니다. 실험 결과, P2P-H는 Pix2Pix 및 StyleGAN2-ADA 베이스라인과 비교하여 구조 보존형 조건부 합성 품질을 향상시켰으며, 다른 군중 데이터셋에 대한 유리한 전이 (transfer) 성능을 보여주었습니다. 다운스트림 유용성을 평가하기 위해, 우리는 384개의 실제 Hajj 이미지와 85개의 선택된 합성 이미지로 구성된 주석 처리된 혼합 실제-합성 데이터셋인 CrowdH-Mix-469를 추가로 구축하였고, 실제 데이터만 사용한 학습과 실제+합성 데이터를 함께 사용한 학습 환경에서 5개의 군중 계수 모델을 평가했습니다. 선택된 합성 데이터는 5개 모델 모두에서 MAE를 감소시켰으며, CSRNet에서 가장 강력한 이득이 관찰되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기