arXiv논문2026. 04. 30. 14:03

효율적인 엣지-클라우드 비전-언어 모델 (VLM) 을 위한 점진적 의미 통신

요약

본 논문은 리소스 제약이 있는 엣지 디바이스와 대역폭 제한 환경에서 VLM을 효율적으로 구동하기 위한 점진적 의미 통신 프레임워크를 제안합니다. 이 프레임워크는 메타 오토인코더(Meta AutoEncoder)를 사용하여 시각 토큰을 적응적이고 점진적으로 정제 가능한 표현으로 압축하여, 통신 비용과 정보 충실도 사이의 균형을 맞춥니다. 실험 결과, 1 Mbps 업링크 환경에서 제안된 방식은 기존 풀 엣지 또는 풀 클라우드 솔루션 대비 네트워크 지연 시간을 크게 줄이면서 높은 의미 일관성을 유지함을 입증했습니다.

핵심 포인트

VLM 배포의 어려움: 제한된 리소스와 대역폭 문제로 인해 VLM을 엣지에 완전히 구현하거나, 원본 데이터를 전송하는 것은 비실용적임.
점진적 의미 통신 프레임워크 제안: 메타 오토인코더를 활용하여 시각 토큰을 점진적으로 정제 가능한 표현으로 압축합니다.
유연한 트레이드오프 제공: 이 설계는 다양한 정보 수준에서 유연하게 전송할 수 있게 하여, 통신 비용과 의미 충실도 사이의 조절 가능한 균형점을 제공합니다.
성능 검증: 1 Mbps 업링크 환경에서 기존 방식 대비 네트워크 지연 시간을 크게 줄이면서 높은 의미 일관성을 유지함을 입증했습니다.

비전-언어 모델 (Vision-Language Models, VLMs) 을 엣지 디바이스에 배포하는 것은 제한된 리소스를 가진 임베디드 플랫폼의 능력보다 훨씬 큰 계산 및 메모리 요구 사항으로 인해 여전히 어렵습니다. 반면에 대역폭이 제한된 환경에서는 원본 시각 데이터를 전송하여 상당한 지연 시간 오버헤드를 초래하므로, 추론을 완전히 클라우드에 오프로드하는 것은 종종 실용적이지 않습니다. 최근의 엣지-클라우드 협업 아키텍처는 VLM 워크로드를 디바이스 간에 분할하려고 시도하지만, 고정 크기의 표현을 전송하는 데 의존하여 동적인 네트워크 조건에 대한 적응성을欠缺하며 의미 중복성을 완전히 활용하지 못합니다.

이 논문에서는 오프더셀프 VLM 과 추가적인 파인튜닝 없이 플러그 앤 플레이 배포를 가능하게 하는 메타 오토인코더 (Meta AutoEncoder) 를 사용하여 시각 토큰을 적응적이고 점진적으로 정제 가능한 표현으로 압축하는 엣지-클라우드 VLM 추론을 위한 점진적 의미 통신 프레임워크를 제안합니다. 이 설계는 다양한 정보 수준에서 유연한 전송을 허용하여 통신 비용과 의미 충실도 사이의 조절 가능한 트레이드오프를 제공합니다.

우리는 대역폭이 제한된 네트워크를 통해 통신하는 임베디드 NXP i.MX95 플랫폼과 GPU 서버로 구성된 전체 엔드투엔드 엣지-클라우드 시스템을 구현했습니다. 실험 결과, 1 Mbps 업링크에서 제안된 점진적 방식은 풀 엣지와 풀 클라우드 솔루션에 비해 네트워크 지연 시간을 크게 줄이는 동시에 높은 압축 하에서도 높은 의미 일관성을 유지함을 보여줍니다. 구현 코드는 출판 시 https://github.com/open-ep/ProSemComVLM 에서 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 엣지-클라우드 비전-언어 모델 (VLM) 을 위한 점진적 의미 통신

요약

핵심 포인트

댓글