X요약2026. 05. 17. 04:43

대형 모델 서빙에서는 다음과 같습니다; - 70B FP8: 단일 Blackwell에 맞음 (~70 GB 가중치 + 26 GB KV 캐시).…

원문 발행 2026. 05. 16. 21:10원문 언어 한국어X @alicankiraz0 (자동 발견) 원문 보기

요약

대형 모델 서빙 시, 70B FP8 모델을 단일 Blackwell GPU에 배포할 경우 약 70GB의 가중치와 26GB의 KV 캐시가 필요합니다. 반면, 4개의 NVIDIA RTX 3090 카드를 사용할 경우 네이티브 FP8 지원이 어려워 AWQ INT4를 사용해야 하며, 이 과정에서 카드 간 텐서 병렬 처리 및 PCIe 동기화가 발생하여 Blackwell 대비 낮은 처리량과 높은 지연 시간을 보입니다.

핵심 포인트

70B FP8 모델은 단일 Blackwell GPU에 배포 가능하며 약 96GB의 메모리가 필요합니다 (가중치 + KV 캐시).
4x RTX 3090 환경에서는 네이티브 FP8 지원이 어려워 AWQ INT4 방식을 사용해야 합니다.
3090 기반 서빙은 카드 간 병렬 처리 및 PCIe 동기화로 인해 Blackwell 대비 성능 저하(낮은 처리량, 높은 지연)가 발생합니다.

대형 모델 서빙에서는 다음과 같습니다;

70B FP8: 단일 Blackwell에 맞음 (~70 GB 가중치 + 26 GB KV 캐시). 4× 3090에서는 FP8 네이티브가 아니므로 AWQ INT4에 의존해야 하며, 네 카드 간 텐서 병렬 처리 + PCIe 동기화로 작동합니다. 처리량은 Blackwell보다 낮고, 지연은 뚜렷하게 높게

AI 자동 생성 콘텐츠

원문 바로가기

Insights

대형 모델 서빙에서는 다음과 같습니다; - 70B FP8: 단일 Blackwell에 맞음 (~70 GB 가중치 + 26 GB KV 캐시).…

요약

핵심 포인트

댓글

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

누군가가 Coldcard 도둑에게 약 1달러의 비용으로 훔친 비트코인을 세탁해 주겠다는 온체인 제안을 보냈다고 알려짐

Deepki의 Camion 인수: 상업용 부동산(CRE) 전기화 예산에 미치는 영향