본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 16. 22:30

[벤치마크] 5090RTX: 프롬프트 파싱 (Prompt Parsing), 토큰 생성 (Token Generation) 및 전력 수준

요약

본 기사는 5090RTX 그래픽카드를 사용하여 LLM 추론 과정에서 프롬프트 파싱(Prompt Parsing, PP)과 토큰 생성(Token Generation, TG) 성능을 다양한 전력 제한(Power Limit) 조건 하에 비교 분석한 벤치마크 결과입니다. 테스트는 Qwen3.6-27B 모델과 복잡한 30k 프롬프트를 사용했으며, 전력 제한이 PP에는 민감하게 영향을 미치는 반면 TG에는 거의 선형적인 관계를 보였습니다. 특히, 4090RTX 대비 5090RTX는 단순히 더 높은 전력 소비량 이상의 성능 차이를 보였으며, 이 성능 격차는 PP와 TG에 동일하게 적용되지 않는다는 점을 데이터 테이블로 제시했습니다.

핵심 포인트

  • LLM 추론 시 프롬프트 파싱(PP)과 토큰 생성(TG)은 전력 제한 조건에서 다른 민감도를 보입니다. (PP가 더 민감함)
  • 5090RTX는 4090RTX 대비 단순히 높은 전력 소비량 외에 성능 면에서도 차이를 보였으며, 이 격차는 PP와 TG에 일률적으로 적용되지 않습니다.
  • 전반적인 추론 작업은 '웜 카드(warm card)' 상태에서 측정하는 것이 적절하며, 이는 냉각된 상태보다 지속적인 부하 테스트에 더 현실적입니다.
  • 테스트 결과, 400w 전력 제한 조건에서 5090RTX의 PP 성능은 2135, TG 성능은 48.7로 측정되었습니다.

https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/에서 영감을 받아, 제 5090을 테스트하여 이 장치의 곡선(curves)이 어떻게 나타나는지, 그리고 (최소 400w로 설정하는 것 외에) 명확한 스윗 스팟 (sweet spots)이 있는지 확인해 보기로 했습니다.

그래프 및 결과:

입력값 (Inputs):

백엔드 (Backend): docker 컨테이너 내의 llama.cpp, FA 활성화, 배치 (batch) 2048, 최대 컨텍스트 (max context) 122k.

모델 (Model): https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced

양자화 (Quant): Q6_K_P

하드웨어 (Hardware): Threadripper 6970, 2 채널 RAM 64GB, 5090RTX

프롬프트 (Prompt): 무거운 추론 (reasoning), 수학 및 연산을 위해 동일한 벤치마크를 10k씩 3번 복사하여 구성된 30k 프롬프트이며, 요청 시 제공 가능합니다 - 벤치마킹을 위해 QWEN 3.6에 의해 특별히 생성되었습니다.

방법론 (Methodology):

세션의 간결함과 이후 TG (Token Generation) 지표의 점근적 특성 (asymptotic nature) 때문에 2분 후에 생성을 중단했습니다. 측정은 카드가 가열된 상태 (warm card)에서 수행되었는데, 차가운 상태 (cold)에서의 측정은 세션 사이에 너무 많은 시간이 소요되었을 것이기 때문입니다. 측정 사이에는 KV 캐시 (KV cache)를 리셋하고 동일한 입력에 대해 적절한 PP (Prompt Processing) 측정을 결과로 얻기 위해 서버를 완전히 재시작했습니다.

전력 수준 범위 (Power Level Range): 400w - 600w, 25w 단계

참고 사항 (Notes):

PL (Power Limit)을 600w로 설정했을 때 기록된 최대 전력 소비량은 592w였으며, 지속적인 부하 (sustained load)가 600w에 도달한 적은 없었고, 제한을 해제했을 때조차 580w에서 안정화되었습니다.

다른 모든 실행에서는 최대값이 설정된 PL을 10-12w 초과하는 경향이 관찰되었으며, 이는 5090RTX가 이미 유명한 급격한 스파이크 (sharp spikes)를 반영합니다.

차가운 카드 (cold card)는 가열된 카드 (warm card)보다 2-3% 더 빠르며, 이로 인해 지속적인 부하 작업은 자연스럽게 수동 작업보다 느립니다.

프롬프트 처리 (Prompt Processing)는 전력 제한 (power limit)에 훨씬 더 민감한 반면, 토큰 생성 (Token Generation)은 이 수치들에서 거의 선형적 (linear)입니다.

https://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/ 게시물에서 사용된 설정과 완전히 동일한 조건(apples to apples)은 아니지만, 4090rtx와 5090rtx 사이의 차이는 단순히 더 많은 전력 사용을 넘어선 것으로 보이며, 이 차이가 프롬프트 파싱 (PP)과 토큰 생성 (TG)에 동일하게 적용되지는 않습니다:

PLPP 5090PP 4090%TG 5090TG 4090%
450w227321131.07572172349.3411.202439024
425w224820931.07405637848.941.61.175480769
400w213520611.03590490148.742.51.145882353

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0