arXiv논문2026. 06. 17. 22:09

신흥 AI 가속기에서의 LLM 추론에 대한 Prefill/Decode 인식 평가

요약

본 논문은 GPU와 신흥 AI 가속기 간의 LLM 추론 성능을 Prefill 및 Decode 단계로 나누어 비교 분석합니다. Llama2-7B를 활용해 TTFT와 TPOT 지표를 측정하며, 각 가속기 플랫폼의 단계별 강점과 이기종 분리(disaggregation) 환경에서의 성능을 연구합니다.

핵심 포인트

GPU는 계산 집약적인 Prefill 단계에서 탁월한 성능을 보임
GroqRack은 Decode 단계에서 매우 낮은 TPOT를 달성함
배치 크기가 커질수록 GPU의 Decode 처리량이 우세함
가속기별 강점이 단계에 따라 다르므로 워크로드에 따른 선택이 중요함

대규모 언어 모델 (LLMs)이 지연 시간(latency) 및 비용에 민감한 환경에 점점 더 많이 배치됨에 따라, 추론 효율성 (inference efficiency)은 핵심적인 시스템 과제가 되었습니다. 현재 배포 환경은 GPU가 주도하고 있지만, 점점 더 많은 수의 AI 가속기들이 LLM 추론에 있어 이점을 주장하고 있습니다. 그러나 이러한 가속기들이 실제 어떤 조건에서 GPU보다 성능이 뛰어난지는 여전히 불분명합니다. 최근의 추론 시스템은 실행을 Prefill(프리필) 단계와 Decode(디코드) 단계로 분해하며, 이 단계들은 서로 다른 계산 특성과 지연 시간 지표를 나타냅니다. 이러한 지표는 일반적으로 첫 번째 토큰 생성 시간 (TTFT, time to first token)과 출력 토큰당 시간 (TPOT, time per output token)으로 측정됩니다. 본 논문은 공통 모델인 Llama2-7B를 사용하여 GPU와 신흥 AI 가속기 전반에 걸친 LLM 추론 성능의 단계 인식 (phase-aware) 평가를 제시합니다. Prefill 및 Decode 성능을 분리하여 측정함으로써, 우리는 가속기의 이점이 단계와 지표에 따라 다르다는 것을 밝혀냅니다. 연구 결과에 따르면, GPU는 계산 집약적인 Prefill 단계에서 일관되게 탁월한 성능을 보이는 반면, GroqRack은 Decode 단계 동안 현저히 낮은 TPOT를 달성합니다 (현재 배칭(batching)은 지원되지 않음). 그러나 배치 크기 (batch size)가 증가함에 따라 GPU는 Decode 처리량 (throughput)에서 다시 우위를 점합니다. 이러한 발견은 각 플랫폼이 단계에 따라 뚜렷한 강점을 나타낸다는 것을 입증합니다. 나아가 우리는 서로 다른 가속기 플랫폼 전반에 걸친 이기종 Prefill/Decode 분리 (disaggregation)를 분석하여, 성능 향상과 그러한 이점이 실현되는 워크로드 및 네트워크 조건을 식별합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신흥 AI 가속기에서의 LLM 추론에 대한 Prefill/Decode 인식 평가

요약

핵심 포인트

댓글