본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 17. 04:43

대형 모델 서빙에서는 다음과 같습니다; - 70B FP8: 단일 Blackwell에 맞음 (~70 GB 가중치 + 26 GB KV 캐시).…

요약

대형 모델 서빙 시, 70B FP8 모델을 단일 Blackwell GPU에 배포할 경우 약 70GB의 가중치와 26GB의 KV 캐시가 필요합니다. 반면, 4개의 NVIDIA RTX 3090 카드를 사용할 경우 네이티브 FP8 지원이 어려워 AWQ INT4를 사용해야 하며, 이 과정에서 카드 간 텐서 병렬 처리 및 PCIe 동기화가 발생하여 Blackwell 대비 낮은 처리량과 높은 지연 시간을 보입니다.

핵심 포인트

  • 70B FP8 모델은 단일 Blackwell GPU에 배포 가능하며 약 96GB의 메모리가 필요합니다 (가중치 + KV 캐시).
  • 4x RTX 3090 환경에서는 네이티브 FP8 지원이 어려워 AWQ INT4 방식을 사용해야 합니다.
  • 3090 기반 서빙은 카드 간 병렬 처리 및 PCIe 동기화로 인해 Blackwell 대비 성능 저하(낮은 처리량, 높은 지연)가 발생합니다.

대형 모델 서빙에서는 다음과 같습니다;

  • 70B FP8: 단일 Blackwell에 맞음 (~70 GB 가중치 + 26 GB KV 캐시). 4× 3090에서는 FP8 네이티브가 아니므로 AWQ INT4에 의존해야 하며, 네 카드 간 텐서 병렬 처리 + PCIe 동기화로 작동합니다. 처리량은 Blackwell보다 낮고, 지연은 뚜렷하게 높게

AI 자동 생성 콘텐츠

본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0