3DLS: 분리된 LLM 서빙을 위한 3D 로직 적층 아키텍처

대규모 언어 모델 (LLM) 서빙은 대형 모델과 긴 컨텍스트를 지원하기 위해 프리필-디코드 (prefill-decode, PD) 분리 기술과 텐서 병렬성 (tensor parallelism, TP)을 점점 더 결합하고 있습니다. 기존의 2D/2.5D 칩렛 (chiplet) 아키텍처에서는 레이어별 프리필-디코드 KV-캐시 (KV-cache) 전송과 디코드 측 TP 집합 통신 (collectives)이 동일한 측면 다이 간 (die-to-die, D2D) 상호 연결을 공유하여, 디코드 임계 경로 (critical path) 상에서 혼합 트래픽 경합을 발생시킵니다. 이러한 경합은 통신 지연 시간을 증가시키고, 토큰 생성 간격을 연장하며, 엔드-투-엔드 (end-to-end, E2E) 서빙 성능을 저하시킵니다. 우리는 KV-캐시 전송은 수직 상호 연결을 통해 라우팅하고, 디코드 측 TP 집합 통신은 측면 D2D 패브릭에 유지함으로써 트래픽 클래스를 분리하는 로직-온-로직 (logic-on-logic) 3D 적층 칩렛 아키텍처인 3DLS를 제안합니다. 3DLS는 공유 패브릭 평면 베이스라인 (shared-fabric planar baseline) 대비 최대 1.49배의 처리량 (throughput)과 60.2% 낮은 엔드-투-엔드 (E2E) 지연 시간을 달성하며, 워크로드 인식 우선순위 관리형 평면 베이스라인 (workload-aware priority-managed planar baseline) 대비로도 최대 1.17배의 처리량과 31.4% 낮은 E2E 지연 시간을 달성합니다. 이러한 결과는 물리적 격리가 미래의 칩렛 기반 PD 분리 LLM 서빙 시스템을 위한 중요한 설계 원칙임을 강조합니다.

Insights

3DLS: 분리된 LLM 서빙을 위한 3D 로직 적층 아키텍처

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실