[벤치마크] 5090RTX: 프롬프트 파싱 (Prompt Parsing), 토큰 생성 (Token Generation) 및 전력 수준

https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/에서 영감을 받아, 제 5090을 테스트하여 이 장치의 곡선(curves)이 어떻게 나타나는지, 그리고 (최소 400w로 설정하는 것 외에) 명확한 스윗 스팟 (sweet spots)이 있는지 확인해 보기로 했습니다.

그래프 및 결과:

입력값 (Inputs):

백엔드 (Backend): docker 컨테이너 내의 llama.cpp, FA 활성화, 배치 (batch) 2048, 최대 컨텍스트 (max context) 122k.

모델 (Model): https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced

양자화 (Quant): Q6_K_P

하드웨어 (Hardware): Threadripper 6970, 2 채널 RAM 64GB, 5090RTX

프롬프트 (Prompt): 무거운 추론 (reasoning), 수학 및 연산을 위해 동일한 벤치마크를 10k씩 3번 복사하여 구성된 30k 프롬프트이며, 요청 시 제공 가능합니다 - 벤치마킹을 위해 QWEN 3.6에 의해 특별히 생성되었습니다.

방법론 (Methodology):

세션의 간결함과 이후 TG (Token Generation) 지표의 점근적 특성 (asymptotic nature) 때문에 2분 후에 생성을 중단했습니다. 측정은 카드가 가열된 상태 (warm card)에서 수행되었는데, 차가운 상태 (cold)에서의 측정은 세션 사이에 너무 많은 시간이 소요되었을 것이기 때문입니다. 측정 사이에는 KV 캐시 (KV cache)를 리셋하고 동일한 입력에 대해 적절한 PP (Prompt Processing) 측정을 결과로 얻기 위해 서버를 완전히 재시작했습니다.

전력 수준 범위 (Power Level Range): 400w - 600w, 25w 단계

참고 사항 (Notes):

PL (Power Limit)을 600w로 설정했을 때 기록된 최대 전력 소비량은 592w였으며, 지속적인 부하 (sustained load)가 600w에 도달한 적은 없었고, 제한을 해제했을 때조차 580w에서 안정화되었습니다.

다른 모든 실행에서는 최대값이 설정된 PL을 10-12w 초과하는 경향이 관찰되었으며, 이는 5090RTX가 이미 유명한 급격한 스파이크 (sharp spikes)를 반영합니다.

차가운 카드 (cold card)는 가열된 카드 (warm card)보다 2-3% 더 빠르며, 이로 인해 지속적인 부하 작업은 자연스럽게 수동 작업보다 느립니다.

프롬프트 처리 (Prompt Processing)는 전력 제한 (power limit)에 훨씬 더 민감한 반면, 토큰 생성 (Token Generation)은 이 수치들에서 거의 선형적 (linear)입니다.

https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/ 게시물에서 사용된 설정과 완전히 동일한 조건(apples to apples)은 아니지만, 4090rtx와 5090rtx 사이의 차이는 단순히 더 많은 전력 사용을 넘어선 것으로 보이며, 이 차이가 프롬프트 파싱 (PP)과 토큰 생성 (TG)에 동일하게 적용되지는 않습니다:

PL	PP 5090	PP 4090	%	TG 5090	TG 4090	%
450w	2273	2113	1.075721723	49.3	41	1.202439024
425w	2248	2093	1.074056378	48.9	41.6	1.175480769
400w	2135	2061	1.035904901	48.7	42.5	1.145882353

Insights

[벤치마크] 5090RTX: 프롬프트 파싱 (Prompt Parsing), 토큰 생성 (Token Generation) 및 전력 수준

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인