GPU를 하나 더 추가했더니 거의 선형적인 성능 향상이 나타나는 것이 이상합니다
요약
NVLink 없이 2개의 RTX 3090을 사용했을 때 Qwen 2.5 모델의 추론 성능이 거의 선형적으로 향상되는 현상을 보고했습니다. P2P가 자동으로 활성화되어 텐서 병렬성(TP=2) 환경에서 높은 효율을 보였습니다.
핵심 포인트
- NVLink 없이도 2x3090 환경에서 선형적인 성능 향상 확인
- P2P(Peer-to-Peer) 통신이 드라이버 설정 없이 자동 활성화됨
- Tensor Parallelism(TP=2) 적용 시 높은 디코딩 속도(TPS) 달성
- 양자화 및 KV 캐시 설정에 따른 성능 변화 관찰
단일 스트림 벤치마크 (club-3090)
모델:
qwen3.6-27b-autoround-int4
이전 (BEFORE):
1x3090
단일 3090을 위한 그들의 기본 스크립트 레시피 (4-bit 양자화 (quant) 및 4-bit KV 캐시 (kv cache), mtp=2)
NARRATIVE decode_TPS: 평균 = 53 표준편차 = 0.6
CODE decode_TPS: 평균 = 62 표준편차 = 1.4
이후 (AFTER):
2x3090
듀얼 3090을 위한 그들의 기본 스크립트 레시피 (4-bit 양자화 (quant) 및 8-bit KV 캐시 (kv cache), mpt=3)
NARRATIVE decode_TPS: 평균 = 94 표준편차 = 1.3
CODE decode_TPS: 평균 = 120 표준편차 = 2.1
이것은 NVLink 없이 8x/8x 메인보드에서 실행 중이며, 왠지 모르게 P2P가 자동으로 활성화되었습니다 (드라이버 해킹 불필요). 텐서 병렬성 (Tensor parallelism) = 2
성능에서 거의 선형적인 스케일링 (linear scaling)을 얻었다는 사실에 진심으로 놀랐습니다. Agent 모드(VSCode)에서 큰 코드 파일을 편집할 때 품질 테스트에서 여전히 이상한 파싱 오류가 발생하긴 하지만 (이전과는 다른 오류임), 왠지 모델이 CLI 편집 도구를 사용하도록 강제하는 것이 VSCode가 Agent와 함께 수행하는 방식보다 훨씬 더 안정적입니다. 아마 저도 그들의 8-bit 가중치 (weight) 모델 레시피로 옮겨갈 것 같습니다.
submitted by /u/Civil_Fee_7862 to r/LocalLLaMA
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기