3DLS: 분리된 LLM 서빙을 위한 3D 로직 적층 아키텍처
요약
LLM 서빙 시 발생하는 프리필-디코드(PD) 분리 기술과 텐서 병렬성(TP) 간의 트래픽 경합 문제를 해결하기 위한 3DLS 아키텍처를 제안합니다. 3D 적층 칩렛 구조를 통해 KV-캐시 전송과 TP 통신을 물리적으로 분리하여 성능을 극대화합니다.
핵심 포인트
- 기존 2D/2.5D 칩렛의 트래픽 경합으로 인한 지연 시간 문제 지적
- 3DLS: 로직-온-로직 3D 적층을 통한 트래픽 클래스 분리 기술
- 기존 방식 대비 최대 1.49배의 처리량 향상 달성
- 엔드-투-엔드(E2E) 지연 시간을 최대 60.2% 감소
- 칩렛 기반 LLM 서빙을 위한 물리적 격리 설계 원칙 제시
대규모 언어 모델 (LLM) 서빙은 대형 모델과 긴 컨텍스트를 지원하기 위해 프리필-디코드 (prefill-decode, PD) 분리 기술과 텐서 병렬성 (tensor parallelism, TP)을 점점 더 결합하고 있습니다. 기존의 2D/2.5D 칩렛 (chiplet) 아키텍처에서는 레이어별 프리필-디코드 KV-캐시 (KV-cache) 전송과 디코드 측 TP 집합 통신 (collectives)이 동일한 측면 다이 간 (die-to-die, D2D) 상호 연결을 공유하여, 디코드 임계 경로 (critical path) 상에서 혼합 트래픽 경합을 발생시킵니다. 이러한 경합은 통신 지연 시간을 증가시키고, 토큰 생성 간격을 연장하며, 엔드-투-엔드 (end-to-end, E2E) 서빙 성능을 저하시킵니다. 우리는 KV-캐시 전송은 수직 상호 연결을 통해 라우팅하고, 디코드 측 TP 집합 통신은 측면 D2D 패브릭에 유지함으로써 트래픽 클래스를 분리하는 로직-온-로직 (logic-on-logic) 3D 적층 칩렛 아키텍처인 3DLS를 제안합니다. 3DLS는 공유 패브릭 평면 베이스라인 (shared-fabric planar baseline) 대비 최대 1.49배의 처리량 (throughput)과 60.2% 낮은 엔드-투-엔드 (E2E) 지연 시간을 달성하며, 워크로드 인식 우선순위 관리형 평면 베이스라인 (workload-aware priority-managed planar baseline) 대비로도 최대 1.17배의 처리량과 31.4% 낮은 E2E 지연 시간을 달성합니다. 이러한 결과는 물리적 격리가 미래의 칩렛 기반 PD 분리 LLM 서빙 시스템을 위한 중요한 설계 원칙임을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기