본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 05. 13:48

무손실 픽셀 수준 이미지 전송을 위한 확산 언어 모델의 적응

요약

무손실 픽셀 수준 이미지 전송을 위해 이산 확산 모델 기반의 DDM-SSCC 프레임워크를 제안합니다. 확산 언어 모델을 픽셀 토큰 복원에 적응시키고 양방향 어텐션과 역 산술 코딩을 결합하여 정확한 복구 성능을 높였습니다.

핵심 포인트

  • 이산 확산 모델 기반의 분리 소스-채널 코딩 프레임워크 제안
  • 양방향 어텐션 기반의 동기화된 역 산술 코딩 적용
  • Halton 가이드 디노이징 및 마스크 비율 인식 코사인 스케줄 도입
  • 기존 무손실 및 의미론적 통신 베이스라인 대비 우수한 복구 성능

무손실 픽셀 수준 이미지 전송 (Lossless pixel-level image transmission)은 의미론적 통신 (semantic communications)을 넘어선 근본적인 영역입니다. 왜냐하면 정확한 복구를 위해서는 정확한 심볼 확률 모델링 (symbol probability modeling)과 노이즈가 있는 채널 (noisy channels)을 통한 신뢰할 수 있는 전달이 모두 필요하기 때문입니다. 본 논문은 무손실 이미지 전송을 위한 이산 확산 모델 (discrete-diffusion-model) 기반의 분리 소스-채널 코딩 (separate source-channel coding) 프레임워크인 DDM-SSCC를 제안합니다. 래스터 순서 자기회귀 코딩 (raster-order autoregressive coding)과 달리, 제안된 소스 코덱은 확산 언어 모델 (diffusion language model)을 픽셀 토큰 복원 (pixel-token restoration)에 적응시키고, 양방향 어텐션 (bidirectional attention) 하에서 동기화된 역 산술 코딩 (reverse arithmetic coding)을 수행하여 하나의 역 디노이징 (reverse denoising) 단계 내에서 여러 개의 마스크된 토큰 (masked tokens)을 코딩할 수 있도록 합니다. 이러한 점진적 복원 과정은 새로 복원된 토큰이 이후의 디노이징 단계에서 양방향 컨텍스트 (bidirectional context) 역할을 할 수 있기 때문에, 노이즈가 있는 전송에 더 유리한 소스 표현 (source representation)을 생성합니다. 생성 중심의 마스크된 디노이징 (masked denoising)과 무손실 산술 코딩 (lossless arithmetic coding) 사이의 간극을 메우기 위해, 우리는 Halton 가이드 디노이징 순서 (Halton-guided denoising order), 마스크 비율 인식 코사인 스케줄 (mask-ratio-aware cosine schedule), 그리고 경량 온도 보정 모듈 (lightweight temperature calibration module)을 추가로 도입합니다. 이러한 설계는 각각 공간적 범위 (spatial coverage)를 개선하고, 디노이징 속도를 컨텍스트 신뢰도에 적응시키며, 산술 코딩에 사용되는 확률 테이블 (probability tables)을 보정합니다. 가산 백색 가우시안 노이즈 (additive white Gaussian noise) 및 레이leigh 페이딩 (Rayleigh fading) 채널 환경에서 CIFAR10, DIV2K-LR-X4, Kodak을 대상으로 진행한 실험 결과, DDM-SSCC는 대표적인 무손실 및 의미론적 통신 베이스라인보다 더 나은 정확한 복구 (exact-recovery) 성능을 달성함을 보여주었으며, 절제 연구 (ablation studies)를 통해 제안된 디노이징 순서, 스케줄 및 보정 모듈의 효과를 검증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0