본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 11. 16:06

2x3090 NVLINK에서 Qwen 3.6 27B MTP 벤치마크

요약

본 기사는 NVLink로 연결된 4개의 RTX 3090 GPU 환경에서 Qwen 3.6 27B 모델의 MTP(Multi-Tenancy Performance) 벤치마크 결과를 분석합니다. 특히, 두 개의 GPU 쌍을 NVLink로 고정하여 사용하는 것이 PCIe를 통해 동일한 구성을 구현하는 것보다 훨씬 높은 처리량을 보여주었습니다. 이 테스트는 대규모 언어 모델(LLM)의 멀티 테넌시 환경에서 하드웨어 연결 방식이 성능에 미치는 영향을 명확히 보여줍니다.

핵심 포인트

  • NVLink를 사용하여 GPU 쌍을 고정하는 것이 PCIe 기반 구성보다 LLM 추론 시 처리량(throughput)을 크게 향상시킨다 (동시성 1에서 +25%, 동시성 4에서 +53%).
  • LLM의 멀티 테넌시 성능 최적화에는 GPU 간의 고속 인터커넥트 기술(NVLink 등)이 필수적이다.
  • 단순히 더 많은 GPU를 추가하는 것만으로는 성능 향상을 기대하기 어려우며, 적절한 하드웨어 구성과 연결 방식이 중요하다.

요약 (TL;DR)

NVLink로 GPU 쌍(0↔2 및 1↔3)을 연결한 4× RTX 3090 환경에서, TP=2를 NVLinked 쌍에 고정하는 것이 PCIe를 통해 TP=2를 실행할 때보다 동시성(concurrency) 1에서 +25%의 처리량을, 그리고 동시성 4에서 **+53%**를 제공했습니다. 나머지 두 개의 GPU를 추가하여 TP=4로 만들면 성능이 좋아지지 않고 오히려 나빠졌습니다.

설정 (Setup)

  • 하드웨어 (Hardware):

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0