본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 29. 11:14

MLVC: 실제 배포를 위한 멀티 플랫폼 학습 기반 비디오 코덱 (Multi-platform Learned Video Codec)

요약

MLVC는 다양한 하드웨어 플랫폼에서 일관된 디코딩을 보장하는 하드웨어 강건형 신경망 비디오 코덱입니다. 하이퍼프라이어를 통해 장치 간 엔트로피 코딩 일관성을 확보하며, 실시간 속도와 높은 압축 효율을 동시에 달성했습니다.

핵심 포인트

  • 플랫폼 간 호환성을 위한 하드웨어 강건형 설계
  • 하이퍼프라이어를 통한 엔트로피 코딩 일관성 보장
  • Apple, Intel, Qualcomm NPU에서 평균 100 FPS 동작
  • HEVC 대비 70% 이상의 BD-rate(MOS) 개선 달성

신경망 비디오 코덱 (Neural video codecs)은 코딩 효율성 측면에서 기존의 클래식 코덱 (classical codecs)을 능가했지만, 플랫폼 간의 호환성 문제와 높은 연산 비용으로 인해 실제 배포에는 여전히 한계가 있습니다. 기존의 양자화 기반 (quantization-based) 솔루션들은 다양한 하드웨어 플랫폼에서 결정론적 (deterministic) 결과를 생성하지 못하며, 이는 치명적인 디코딩 실패로 이어집니다. 우리는 실질적인 교차 플랫폼 추론 (cross-platform inference)을 위해 설계된 하드웨어 강건형 신경망 비디오 코덱인 MLVC를 소개합니다. 핵심 아이디어는 하이퍼프라이어 (hyperprior)를 통해 스케일 파라미터 (scale parameters)를 명시적으로 전송하는 것이며, 이를 통해 비트 단위로 일치하는 산술 연산 (bit-exact arithmetic) 없이도 장치 간의 엔트로피 코딩 (entropy coding) 일관성을 보장합니다. 비록 이 방식이 비트레이트 오버헤드 (bitrate overhead)를 증가시키지만, 우리는 아키텍처 개선 (gated memory, ReGLU activation), 장기 참조 복구 메커니즘 (long-term reference recovery mechanism), 그리고 도메인 특화 지각 학습 (domain-specific perceptual training)을 통해 코딩 효율성의 대부분을 회복했습니다. VCD 화상 회의 벤치마크에서 MLVC는 가장 강력한 배포 가능한 베이스라인인 하드웨어 HEVC 대비 70% 이상의 BD-rate (MOS) 개선을 달수했으며, 다양한 플랫폼에서 작동할 수 없는 DCVC-RT와 경쟁할 만한 주관적 품질을 달성했습니다. 인코더와 디코더 모두 Apple, Intel, Qualcomm의 범용 NPU에서 평균 100 FPS로 동작합니다. MLVC는 경쟁력 있는 압축 성능, 실시간 속도, 그리고 다양한 소비자 기기에서의 교차 플랫폼 강건성을 결합한 최초의 신경망 비디오 코덱으로, 광범위한 배포에 적합합니다. 코드는 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0