본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 11:33

Tiara: 원격 메모리 액세스를 위한 프로그래밍 가능한 라인 레이트(Line-Rate) ISA

요약

Tiara는 원격 메모리 액세스 시 발생하는 간접 참조 장벽(Indirection Wall) 문제를 해결하기 위해 제안된 프로그래밍 가능한 라인 레이트 ISA입니다. 메모리 측 NIC에서 실행되는 명령어를 통해 다중 RTT 의존성을 단일 라운드 트립으로 압축하여 성능을 극대화합니다.

핵심 포인트

  • 간접 참조 패턴으로 인한 RDMA 성능 저하 문제 해결
  • eBPF와 유사한 정적 검증 가능 명령어 세트 제공
  • 그래프 순회 지연 시간 2.85배 단축 및 처리량 3.4배 향상
  • PagedAttention 및 MoE 전문가 수집 성능 대폭 개선

RDMA one-sided verbs는 메모리 분리(memory disaggregation)를 위한 자연스러운 프리미티브(primitive)이지만, 클라이언트가 정확한 원격 주소를 제공해야 한다는 요구사항이 있습니다. 대상 주소가 원격 메모리에서 먼저 읽어야 하는 데이터에 의존하는 경우, 즉 우리가 '간접 참조 장벽(Indirection Wall)'이라고 부르는 패턴이 발생하면 1-RTT 성능이 무너집니다. 간접 참조(Indirection)는 도처에 존재합니다. 그래프 순회(graph traversals)는 포인터를 따라 홉(hop) 단위로 이동하고, 주소 변환(address translation)은 다단계 페이지 테이블(multi-level page tables)을 탐색하며, 분산 조정(distributed coordination)은 조건부 멀티 호스트 로직을 필요로 하고, 분리된 LLM 추론(disaggregated LLM inference)은 블록 테이블 조회(block-table lookups)를 통해 페이지화된 KV 캐시(paged KV caches)를 해결해야 합니다. 간접 참조의 각 단계는 순차적으로 의존하는 하나의 네트워크 라운드 트립(round-trip) 비용을 발생시키지만, 기존 RDMA NIC로 오프로딩(offloading)하면 원격 CPU 사이클을 소모하거나 처리량(throughput)이 제한되는 문제가 있습니다. 우리는 메모리 측 NIC에서 실행되는 컴팩트하고 정적 검증이 가능한 명령어 세트(instruction set)인 Tiara를 제시합니다. Tiara 연산자(operators)는 커널의 eBPF 프로그램과 유사하게 미리 등록된 프로그램으로, 간접 참조를 로컬에서 해결하여 다중 RTT 의존 체인을 단일 라운드 트립으로 압축합니다. FPGA 기반 프로토타입에서 Tiara는 one-sided RDMA 대비 10-hop 그래프 순회 지연 시간(latency)을 2.85배 단축하는 동시에 3.4배 더 높은 처리량을 유지하며, 페이지 테이블 탐색(page-table walk) 지연 시간을 62% 줄이고, 경합이 없는 분산 잠금(uncontended distributed-lock) 지연 시간을 2.9배 줄입니다. 또한 8 KB 블록 기준 분리된 PagedAttention에서 2.8배의 처리량을 달성하고, 32명의 전문가(experts)를 대상으로 MoE 전문가 수집(expert-gather) 지연 시간을 1.88배 단축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0