본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 12:49

실제적인 학습된 이미지 압축에서 중요한 요소

요약

본 연구는 인간 시각 시스템에 최적화된 실용적인 학습된 이미지 압축 코덱을 설계하는 데 중점을 둡니다. 기존 전통 코덱 대비 감각적 품질과 실제 실행 시간(runtime)을 동시에 고려하여 모델링 선택 및 아블레이션 기법을 종합적으로 연구했습니다. 그 결과, 신경망 구조 검색(NAS)을 통해 최적화된 새로운 코덱을 개발했으며, 이 코덱은 AV1, VVC 등 기존 표준 대비 2.3-3배의 비트레이트 절감 효과를 보여주면서도, 모바일 기기에서 매우 빠른 인코딩/디코딩 속도를 달성했습니다.

핵심 포인트

  • 학습된 코덱은 인간 시각 시스템에 최적화될 수 있다는 장점을 가지지만, 감각적 품질과 실용성을 모두 갖춘 모델이 필요합니다.
  • 연구는 신경망 구조 검색(NAS)을 활용하여 압축 성능 최대화와 목표 온디바이스 실행 시간 달성을 결합적으로 최적화했습니다.
  • 제안된 코덱은 기존 표준 코덱(AV1, VVC 등) 대비 2.3-3배의 비트레이트 절감 효과를 제공합니다.
  • 성능과 속도 측면에서 우수하여, iPhone 17 Pro Max와 같은 모바일 기기에서도 빠른 인코딩 및 디코딩 속도를 보장합니다.

학습된 코덱 (Learned Codecs) 이 기존의 하드코딩된 전통적 코덱 대비 갖는 가장 큰 차별점은 인간 시각 시스템에 직접 최적화될 수 있다는 능력입니다. 이러한 잠재력을 고려하더라도, 여전히 감각적 (perceptual) 이면서 실용적인 이미지 코덱은 제안되지 않았습니다. 본 연구에서는 이를 해소하기 위해 실용적인 학습된 이미지 코덱의 설계가 관건되는 주요 모델링 선택에 대한 종합적인 연구를 수행합니다. 여기에는 감각적 품질과 실행 시간 (runtime) 을 함께 최적화하는 여러 새로운 기법을 포함하는 아벨레이션 (ablations) 도 포함되어 있습니다.

우리는 수백만 개의 백본 (backbone) 구성을 대상으로 성능 인식을 위한 신경망 구조 검색 (neural architecture search) 을 수행하여, 감각적 지표로 측정된 압축 성능을 최대화하면서 목표 온디바이스 실행 시간을 달성하는 모델을 식별합니다. 우리는 이러한 최적화를 결합하여 속도 및 감각적 품질 사이의 균형을 크게 개선한 새로운 코덱을 구성합니다.

엄격한 주관적 사용자 연구에 따르면, 이 코덱은 AV1, AV2, VVC, ECM 과 JPEG-AI 에 비해 2.3-3 배의 비트레이트 절감 (bitrate savings) 을 제공하며, 가장 좋은 학습된 코덱 대안들에 비해 20-40% 의 비트레이트 절감을 제공합니다. 동시에, iPhone 17 Pro Max 에서 12MP 이미지를 230ms 로 인코딩하고 150ms 로 디코딩합니다. 이는 V100 GPU 에서 실행되는 대부분의 최상위 ML 기반 코덱보다 빠릅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0