본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:57

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for

요약

LiVeAction은 웨어러블 또는 원격 감지 장치와 같이 대역폭 및 전력 제약이 있는 환경을 위해 설계된 경량화되고 다재다능하며 비대칭적인 신경 코덱입니다. 기존의 표준 코덱이나 생성 신경 코덱들은 특정 모달리티에 국한되거나 자원 소모가 커서 실용성이 떨어지는 한계가 있었습니다. LiVeAction은 FFT 유사 구조를 도입하여 인코더 복잡도를 줄이고, 적대적/지각 손실을 분산 기반 레이트 페널티로 대체하여 다양한 신호 모달리티에 적용 가능하면서도 우수한 성능과 낮은 전력 소모라는 두 마리 토끼를 잡았습니다.

핵심 포인트

  • LiVeAction은 대역폭 및 전력 제약이 있는 엣지 디바이스 환경을 위해 최적화된 신경 코덱이다.
  • FFT 유사 구조를 도입하여 인코더의 복잡도를 낮추고 경량화를 달성했다.
  • 분산 기반 레이트 페널티를 사용하여 다양한 신호 모달리티(초분광, 3D 의료 이미지 등)에 적용 가능성을 높였다.
  • 기존 생성 신경 코덱 대비 우수한 Rate-Distortion 성능을 유지하면서도 실용적인 저전력 배포가 가능하다.

현대 센서는 풍부한 고해상도 데이터를 생성하지만, 웨어러블 또는 원격 감지 장치를 기반으로 하는 응용 프로그램은 대역폭 및 전력 예산에 의해 제한됩니다. JPEG 와 MPEG 와 같은 표준 코덱은 비트레이트와 지각 품질 간의 효율적인 균형을 달성하지만 인간 지각을 위해 설계되어 기계 지각 작업 및 공간 오디오 배열, 초분광 이미지, 3D 의학적 이미지와 같은 비전통적 모달리티의 적용에 제한이 있습니다. 스칼라 양자화 또는 해상도 감소를 기반으로 한 일반적인 압축 스키마는 광범위하게 적용되지만 신호 내재적 중복성을 활용하지 못하여 최적의 레이트 - 왜곡 성능을 달성하지 못합니다. 최근 생성 신경 코덱 또는 토크나이저는 복잡한 신호 의존성을 모델링하지만 종종 과분해되어 있으며, 데이터 집약적이고 모달리티 특이적이어서 자원 제약 환경에서 실용적이지 않습니다. 우리는 이러한 한계를 해결하기 위해 두 가지 핵심 아이디어를 통해 Lightweight, Versatile, and Asymmetric 신경 코덱 아키텍처 (LiVeAction) 를 소개합니다. (1) 실행 환경의 자원 제약을 충족시키기 위해 인코더의 복잡성을 줄이기 위해 FFT 유사 구조를 부과하고 신경 네트워크 기반 분석 변환의 전체 크기와 깊이를 줄입니다. (2) 임의의 신호 모달리티를 허용하고 훈련을 단순화하기 위해 적대적 및 지각 손실을 분산 기반 레이트 페널티로 대체합니다. 우리의 설계는 최신 생성 토크나이저에 비해 우수한 레이트 - 왜곡 성능을 제공하면서 저전력 센서에 배포할 수 있는 실용성을 유지합니다. 우리는 코드를 실험 및 파이썬 라이브러리를 https://github.com/UT-SysML/liveaction 에서 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0