arXiv논문2026. 05. 07. 12:49

실제적인 학습된 이미지 압축에서 중요한 요소

요약

본 연구는 인간 시각 시스템에 최적화된 실용적인 학습된 이미지 압축 코덱을 설계하는 데 중점을 둡니다. 기존 전통 코덱 대비 감각적 품질과 실제 실행 시간(runtime)을 동시에 고려하여 모델링 선택 및 아블레이션 기법을 종합적으로 연구했습니다. 그 결과, 신경망 구조 검색(NAS)을 통해 최적화된 새로운 코덱을 개발했으며, 이 코덱은 AV1, VVC 등 기존 표준 대비 2.3-3배의 비트레이트 절감 효과를 보여주면서도, 모바일 기기에서 매우 빠른 인코딩/디코딩 속도를 달성했습니다.

핵심 포인트

학습된 코덱은 인간 시각 시스템에 최적화될 수 있다는 장점을 가지지만, 감각적 품질과 실용성을 모두 갖춘 모델이 필요합니다.
연구는 신경망 구조 검색(NAS)을 활용하여 압축 성능 최대화와 목표 온디바이스 실행 시간 달성을 결합적으로 최적화했습니다.
제안된 코덱은 기존 표준 코덱(AV1, VVC 등) 대비 2.3-3배의 비트레이트 절감 효과를 제공합니다.
성능과 속도 측면에서 우수하여, iPhone 17 Pro Max와 같은 모바일 기기에서도 빠른 인코딩 및 디코딩 속도를 보장합니다.

학습된 코덱 (Learned Codecs) 이 기존의 하드코딩된 전통적 코덱 대비 갖는 가장 큰 차별점은 인간 시각 시스템에 직접 최적화될 수 있다는 능력입니다. 이러한 잠재력을 고려하더라도, 여전히 감각적 (perceptual) 이면서 실용적인 이미지 코덱은 제안되지 않았습니다. 본 연구에서는 이를 해소하기 위해 실용적인 학습된 이미지 코덱의 설계가 관건되는 주요 모델링 선택에 대한 종합적인 연구를 수행합니다. 여기에는 감각적 품질과 실행 시간 (runtime) 을 함께 최적화하는 여러 새로운 기법을 포함하는 아벨레이션 (ablations) 도 포함되어 있습니다.

우리는 수백만 개의 백본 (backbone) 구성을 대상으로 성능 인식을 위한 신경망 구조 검색 (neural architecture search) 을 수행하여, 감각적 지표로 측정된 압축 성능을 최대화하면서 목표 온디바이스 실행 시간을 달성하는 모델을 식별합니다. 우리는 이러한 최적화를 결합하여 속도 및 감각적 품질 사이의 균형을 크게 개선한 새로운 코덱을 구성합니다.

엄격한 주관적 사용자 연구에 따르면, 이 코덱은 AV1, AV2, VVC, ECM 과 JPEG-AI 에 비해 2.3-3 배의 비트레이트 절감 (bitrate savings) 을 제공하며, 가장 좋은 학습된 코덱 대안들에 비해 20-40% 의 비트레이트 절감을 제공합니다. 동시에, iPhone 17 Pro Max 에서 12MP 이미지를 230ms 로 인코딩하고 150ms 로 디코딩합니다. 이는 V100 GPU 에서 실행되는 대부분의 최상위 ML 기반 코덱보다 빠릅니다.

AI 자동 생성 콘텐츠

원문 바로가기

실제적인 학습된 이미지 압축에서 중요한 요소

요약

핵심 포인트

댓글