X요약2026. 05. 14. 06:58

Gemma-4-26B-A4B-NVFP4가 단일 5090에서 65k context로 구동됩니다. 2개의 별도 RTX 5090에서 2개의 모델을

원문 발행 2026. 05. 14. 02:32원문 언어 기타AI 한국어 번역X @alicankiraz0 (자동 발견) 원문 보기

요약

Gemma-4-26B-A4B-NVFP4 모델이 단일 RTX 5090 GPU에서 65k 컨텍스트 길이로 구동되는 것이 확인되었습니다. 또한, 두 개의 별도 RTX 5090을 사용하여 두 개의 모델을 서빙하는 것도 가능함을 보여줍니다. 특히, vLLM을 이용해 64k 컨텍스트 환경에서 단일 RTX 5090으로 구동 시 초당 약 109.89 토큰의 속도를 기록했습니다.

핵심 포인트

Gemma-4-26B-A4B-NVFP4 모델이 65k 컨텍스트 길이 지원을 확인했다.
단일 RTX 5090 GPU에서 해당 모델 구동 및 서빙이 가능하다.
두 개의 별도 RTX 5090으로 두 개의 모델 동시 서빙이 가능하다.
vLLM 사용 시, 단일 RTX 5090에서 64k 컨텍스트로 약 109.89 tok/sec의 속도를 달성했다.

Gemma-4-26B-A4B-NVFP4가 5090에서 65k context에서 실행되기 시작해요
2개의 별도 RTX 5090에서 2개의 모델을 서빙해서 사용할 수 있었어요

Gemma-4-26B-A4B-NVFP4의 64k context에서 단일 RTX 5090 사용 시 vLLM을 통한 속도는 109.89 tok/sec입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Gemma-4-26B-A4B-NVFP4가 단일 5090에서 65k context로 구동됩니다. 2개의 별도 RTX 5090에서 2개의 모델을

요약

핵심 포인트

댓글

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural

2026년 4GB Radeon RX 6500 XT 및 GTX 1650 Super로 게임하기 — 업스케일링 (Upscaling)이 저사양

EchoTranscribe와 Whisper를 사용하여 로컬 오디오 전사(Transcription) 실행하기