Charon: 대규모 LLM 학습 및 추론을 위한 통합 및 세밀한 시뮬레이터
요약
대규모 LLM의 학습 및 추론 최적화를 위해 설계된 통합 시뮬레이터 Charon을 소개합니다. Charon은 병렬화 전략과 하드웨어 구성을 시뮬레이션하여 높은 정확도로 성능을 예측하며, 실제 시스템 처리량을 향상시키는 최적의 구성을 찾아냅니다.
핵심 포인트
- LLM 학습 및 추론을 위한 통합적이고 모듈화된 시뮬레이터 Charon 제안
- 다양한 구성에서 5.35% 미만, 대규모 GPU 클러스터에서 3.74% 미만의 낮은 예측 오차 달성
- 가설 검증을 통해 시스템 최적화 및 하드웨어 구성 설계 가이드 제공
- 실제 추론 배포 시 베이스라인보다 높은 처리량을 갖는 최적 구성 탐색 가능
병렬화 전략 (Parallelism strategies), 시스템 최적화 (System optimizations), 그리고 하드웨어 구성 (Hardware configurations)의 복잡한 설계 공간으로 인해, 최적의 성능으로 대규모 LLM 학습 및 추론을 배포하는 것은 매우 어려운 과제입니다. "만약 ~한다면 (what-if)" 식의 가설을 검증함으로써 최적화 노력과 시스템 연구를 안내하기 위해서는 정확하고 신속한 성능 시뮬레이션 (Performance simulation)이 필수적입니다. 이를 해결하기 위해, 우리는 LLM 성능을 정확하게 예측할 수 있는 통합적이고 모듈화된 세밀한 (Fine-grained) 시뮬레이터인 Charon을 소개합니다. 실험 결과, Charon은 다양한 모델과 구성에 걸쳐 높은 정확도를 달성하였으며, 전체 예측 오차는 일관되게 5.35% 미만이었고, 대규모 GPU 클러스터를 이용한 학습의 경우 3.74% 미만이었음을 보여주었습니다. 실제 추론 배포 사례에서 Charon은 엔지니어링을 통해 튜닝된 베이스라인 (Baseline)보다 시스템 처리량 (Throughput)을 향상시키는 구성을 찾아냈으며, 이를 통해 실질적인 실무 가치를 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기