arXiv논문2026. 06. 03. 12:14

SEAOTTER: 효율적인 재구성을 위한 일회성 트랜스코드 기반 센서 임베디드 오토인코딩

요약

SEAOTTER은 로보틱스 시스템의 제한된 대역폭과 컴퓨팅 자원을 극복하기 위한 새로운 압축 프레임워크입니다. 센서 임베디드 오토인코더와 일회성 트랜스코딩 기술을 결합하여, 표준 JPEG 인프라와 호환되면서도 높은 압축 효율과 정확도를 제공합니다.

핵심 포인트

표준 JPEG 인프라와 호환되는 고효율 압축 프레임워크 제안
AVIF 대비 7배 빠른 인코딩 및 3.5배 빠른 디코딩 성능
200:1 압축률에서 ImageNet top-1 정확도 8% 향상
학습 가능한 JPEG 색상 및 양자화 변환 기술 적용

로보틱스 (Robotics) 시스템에서는 저비용, 저전력 하드웨어를 사용하여 고해상도의 방대한 시각 데이터를 쉽게 캡처할 수 있습니다. 그러나 제한된 대역폭과 온디바이스 (on-device) 컴퓨팅 자원으로 인해 JPEG/MPEG와 같은 기존 코덱 (codecs)을 통해 전송할 때 이를 완전히 활용하기 어렵습니다. AV1/AVIF와 같은 최신 코덱은 레이트-왜곡 (rate-distortion) 트레이드오프를 개선하지만, 인코딩 (encoding)을 위해 훨씬 더 많은 자원을 요구하며 맞춤형 ASIC 없이는 실행이 불가능합니다. 최근의 비대칭 오토인코더 (asymmetric autoencoders)는 극심한 전력 및 대역폭 제약 하에서도 높은 품질을 제공하지만, 과도한 디코딩 (decoding) 비용을 발생시키고 JPEG와 같은 표준을 중심으로 구축된 수십 년간의 인프라를 무시하는 맞춤형 포맷을 사용합니다. 이러한 한계를 해결하기 위해, 우리는 효율적인 재구성을 위한 일회성 트랜스코드 (One-Time Transcode)와 결합된 센서 임베디드 오토인코더 (Sensor Embedded Autoencoder)를 기반으로 하는 클라우드 로보틱스 (cloud robotics)용 압축 프레임워크인 SEAOTTER를 소개합니다. 센서, 클라우드, 소비자 단계는 매우 다른 전력 및 대역폭 예산을 가지기 때문에, SEAOTTER는 학습된 잠재 표현 (learned latent)의 압축성과 표준 JPEG 파일의 광범위한 사용성을 결합합니다. 단순한 트랜스코딩 (transcoding)은 성능을 저하시키기 때문에, 우리는 전역적, 밀집형 및 시각-언어 기반 인지 (vision-language-based perception)에 대한 정확도를 높일 수 있는 학습 가능한 JPEG 색상 및 양자화 변환 (quantization transform)을 제안합니다. SEAOTTER를 사용하여, 우리는 사전 학습된 고정된 (frozen) 인코더를 위한 범용 및 작업 인식 (task-aware) 트랜스코딩 파이프라인을 모두 학습시킵니다. 200:1의 압축률에서 AVIF와 비교했을 때, JPEG 인프라와의 호환성을 유지하면서도 7배 빠른 인코딩, 3.5배 빠른 디코딩, 그리고 ImageNet top-1 정확도 +8% 향상을 관찰했습니다. 우리의 코드는 https://github.com/UT-SysML/seaotter 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SEAOTTER: 효율적인 재구성을 위한 일회성 트랜스코드 기반 센서 임베디드 오토인코딩

요약

핵심 포인트

댓글