본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 07:13

Tessera: UMA 엣지 가속기를 위한 안전한 근접 라인 레이트 가중치 스트리밍

요약

Tessera는 통합 메모리 아키텍처(UMA) 기반의 엣지 가속기에서 안전하게 근접 라인 단위로 모델 가중치를 스트리밍하기 위한 참조 아키텍처입니다. 기존의 페이지 단위 암호화 방식은 대역폭 병목 현상을 유발하는 반면, Tessera는 AXI 버스트를 가로채 DRAM 가져오기와 동시에 AES-256-CTR 키스트림을 계산하여 평문 가중치를 NPU SRAM으로 직접 스트리밍합니다. 이 설계는 메모리 암호화의 대역폭 페널티를 획기적으로 줄이고, 물리적 추출 및 DMA 공격 등 UMA 환경의 주요 보안 위협으로부터 모델을 보호하는 것을 목표로 합니다.

핵심 포인트

  • UMA 시스템에서 발생하는 평문 가중치 노출 문제를 해결하기 위한 하드웨어 기반 DRM 솔루션을 제시합니다.
  • 전통적인 페이지 단위 메모리 암호화 방식이 야기하는 심각한 대역폭 저하 문제(최대 32배 페널티)를 극복합니다.
  • Tessera는 AXI 버스트와 병렬로 키스트림을 계산하여, 근접 라인(cache line granularity) 단위의 가중치 복호화를 실현합니다.
  • 이 아키텍처는 NPU SRAM에 일시적인 풋프린트를 생성함으로써 영구 메모리 카브아웃의 필요성을 제거하고 보안성을 높입니다.
  • 물리적 DRAM 추출, 악성 DMA 등 UMA 환경 특유의 주요 공격 벡터를 형식적으로 방지합니다.

상용 엣지 디바이스에 전용 딥 뉴럴 네트워크 (DNN) 를 배포하려면 소프트웨어 레벨과 물리적 적대자 모두를 견딜 수 있는 하드웨어 기반 디지털 권리 관리 (DRM) 가 필요합니다. 유니파이드 메모리 아키텍처 (UMA) 시스템에서는 호스트 CPU 와 뉴럴 프로세싱 유닛 (NPU) 이 물리적 DRAM 을 공유하므로, 해킹당한 OS 커널이 평문 모델 가중치를 직접 읽을 수 있습니다. 기존 방어 기법은 이러한 제한된 환경에서 실패합니다: 신뢰할 수 있는 실행 환경은 희소한 메모리를 영구 예약 영역으로 독점하고, 전체 메모리 암호화는 페이지 단위로 작동합니다. 이는 시스템이 서브 페이지 텐서 타일을 위해 거대한 4 KB 메모리 페이지를 가져오도록 강제하여 대역폭을 심각하게 저하시킵니다. 우리는 UMA 엣지 가속기를 위한 인라인 캐시 라인粒度 가중치 복호화를 위한 Tessera 참조 아키텍처를 제시합니다. 이 설계는 64 바이트 AXI 버스트를 가로채며 DRAM 가져오기와 병렬로 AES-256-CTR 키스트림을 계산합니다. 이는 평문을 격리된 NPU SRAM 으로 직접 스트리밍하여 활성 타일에 국한된 일시적인 메모트 풋프린트를 생성하고 영구 메모리 카브아웃의 필요성을 제거합니다. 세 가지 다른 SoC 플랫폼에 대한 측정은 이 병렬화가 표준 DRAM 가져오기 시간을 cryptographic latency 뒤에 숨기는 것을 보여주며, 이는 최악의 경우 타이밍 변동 하에서도 성립합니다. 따라서 Tessera 는 이론적인 메모리 대역폭 천장의 98.4% 를 달성할 것으로 예상됩니다 (단순히 1.6% 의 오버헤드). 표준 비전 및 언어 모델에 대해 페이지 레벨 메모리 암호화는 최대 32 배의 대역폭 페널티를 겪는 반면, Tessera 는 모든 레이어 기하학에 대해 최적의 1x 풋프린트를 유지합니다. 마지막으로, Tessera 는 물리적 DRAM 추출, 악의적인 DMA, 컴퓨팅 하이재킹을 포함한 주요 UMA 특정 공격 벡터를 무력화하고 희소 텐서를 통한 평문 누출을 형식적으로 방지합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0