MOCAP: Prefill 전용 LLM 추론을 위한 웨이퍼 스케일 칩(WSC) 지향 메모리 오케스트레이션 기반 청크 파이프라이닝 프레임워크
요약
MOCAP은 웨이퍼 스케일 칩(WSC) 환경에서 LLM의 프리필(prefill) 단계를 가속화하기 위한 새로운 프레임워크입니다. 메모리 불균형과 지연 시간 불균형 문제를 해결하여 긴 컨텍스트 처리를 최적화합니다.
핵심 포인트
- WSC 기반 프리필 전용 LLM 추론을 위한 MOCAP 프레임워크 제안
- MBKR 기술을 통해 파이프라인 간 KV 캐시를 재분배하여 메모리 불균형 완화
- LBCP 기술로 청크 실행 비용을 균형 있게 맞춰 파이프라인 효율성 향상
- 기존 GPipe 대비 지연 시간 76.4% 감소 및 처리량 3.24배 향상 달성
대규모 언어 모델 (LLMs)은 종단 간(end-to-end) 지연 시간이 프리필(prefill) 단계에 의해 지배되는 프리필 전용 워크로드에서 점점 더 많이 사용되고 있습니다. 긴 컨텍스트(long-context) 프리필의 경우, 통신 오버헤드는 시퀀스 길이(sequence length)에 따라 증가하며 기존 GPU 시스템에서 빠르게 병목 현상이 됩니다. 따라서 높은 통신 대역폭과 거대한 총 연산 및 메모리 용량을 갖춘 웨이퍼 스케일 칩 (WSCs)이 유망한 기판으로 주목받고 있습니다. 프리필을 가속화하는 자연스러운 방법은 긴 입력 시퀀스를 여러 개의 청크(chunk)로 분할하고, 장치 간에 더 세밀한 수준의 파이프라인(pipeline)으로 실행하는 것입니다. 그러나 이 아이디어를 WSCs 상의 긴 컨텍스트 프리필에 직접 적용하는 것은 여전히 도전적인 과제로 남아 있습니다. 첫째, 청크 간의 인과적 의존성(causal dependency)으로 인해 KV 캐시(KV cache)가 파이프라인 단계(pipeline stages) 전반에 걸쳐 불균형하게 축적되어, 심각한 메모리 불균형을 초래하고 실행 가능한 시퀀스 길이를 제한합니다. 둘째, 각 청크가 이전 청크에 의존하기 때문에 후반부 청크일수록 더 많은 어텐션(attention) 연산이 필요하며, 이는 청크 수준의 지연 시간 불균형으로 이어집니다. 이러한 문제를 해결하기 위해, 우리는 WSCs 상의 프리필 전용 LLM 추론을 위한 메모리 오케스트레이션 기반 청크 파이프라이닝 프레임워크인 MOCAP을 제안합니다. MOCAP은 메모리 균형 KV 재할당 (Memory-Balanced KV Reallocation, MBKR)을 도입하여 파이프라인 단계 간에 KV 캐시를 재분배함으로써 메모리 불균형을 완화하고, 이를 통해 실행 가능한 시퀀스 길이를 확장합니다. 또한, 어텐션 비용 증가와 KV 재할당 오버헤드 상황 모두에서 청크 실행 비용을 균형 있게 맞추는 지연 시간 균형 청크 분할 (Latency-Balanced Chunk Partitioning, LBCP)을 통합하여 파이프라인 효율성을 향상시킵니다. 실험 결과에 따르면, MOCAP은 GPipe와 비교했을 때 평균적으로 76.4% 낮은 종단 간 지연 시간과 3.24배 높은 처리량(throughput)을 달성했습니다. 또한 MOCAP은 Terapipe와 비교하여 최대 지원 가능한 시퀀스 길이를 최대 1.31배까지 확장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기