Blackwell NVLink가 기밀 컴퓨팅 (Confidential Compute)을 저해하며 61% 성능 퇴보 보고됨

요약

NVIDIA Blackwell 아키텍처의 기밀 컴퓨팅 구현 시 NVLink 멀티캐스트 기능이 비활성화되어 SGLang Qwen3.5 397B 모델에서 61%의 성능 저하가 보고되었습니다. 이는 보안을 위한 메모리 암호화와 성능을 위한 멀티캐스트 기능 사이의 구조적 트레이드오프 문제입니다.

핵심 포인트

Blackwell 기밀 컴퓨팅 시 NVLink 멀티캐스트 미지원
SGLang Qwen3.5 397B 모델에서 61% 성능 퇴보 발생
보안을 위한 하드웨어 설계상의 구조적 트레이드오프
금융, 의료 등 규제 산업의 대규모 모델 추론에 영향

NVIDIA Blackwell의 기밀 컴퓨팅 (Confidential Computing)이 NVLink 멀티캐스트 (Multicast)를 비활성화하여, SGLang Qwen3.5 397B 모델에서 61%의 성능 퇴보 (Regression)를 유발합니다. @verdacloud의 GitHub 티켓에서 발견된 이 내용은 @SemiAnalysis_에 의해 확산되었습니다.

주요 사실

SGLang Qwen3.5 397B에서 61% 성능 퇴보 (Regression) 발생
Blackwell 기밀 컴퓨팅 (Confidential Computing)에서 NVLink 멀티캐스트 (Multicast) 미지원
Hopper 기밀 컴퓨팅 (Confidential Computing)은 암호화되지 않은 NVLink를 사용함
@verdacloud의 GitHub 티켓에서 발견되었으며, @SemiAnalysis_에 의해 확산됨
이 퇴보 (Regression) 현상은 규제 환경에서의 대규모 모델 추론 (Inference)에 영향을 미침

@verdacloud의 GitHub 티켓과 @SemiAnalysis_의 보도에 따르면, NVIDIA Blackwell 아키텍처는 기밀 컴퓨팅 (Confidential Computing) 구현에서 심각한 결함이 있습니다. NVLink 멀티캐스트 (Multicast)가 지원되지 않아 SGLang Qwen3.5 397B에서 61%의 성능 퇴보 (Regression)가 발생합니다. 이 퇴보 (Regression)는 특히 대규모 모델 추론 (Inference)에서 매우 심각한데, 하나의 GPU가 여러 GPU에 동시에 데이터를 브로드캐스트 (Broadcast)할 수 있게 해주는 NVLink 멀티캐스트 (Multicast)는 통신 오버헤드 (Communication Overhead)를 줄이는 데 필수적이기 때문입니다.

이 문제는 NVIDIA 자체 문서에 의해 더욱 심화됩니다. NVIDIA의 백서인 "NVIDIA Secure AI with Blackwell and Hopper GPUs"에 따르면, Hopper의 기밀 컴퓨팅 (Confidential Computing)은 완전히 암호화되지 않은 NVLink를 사용했음을 보여주며, 이는 이전 세대의 "보안 (Secure)" 모드가 불완전했음을 의미합니다 [NVIDIA whitepaper]. 이는 NVIDIA의 기밀 컴퓨팅 (Confidential Computing) 스토리가 세대별로 일관되지 않았음을 시사합니다.

SGLang Qwen3.5 397B에서 나타난 61%의 성능 퇴보 (Regression)는 대규모 모델 추론 (Inference)의 최악의 시나리오입니다. 대규모 언어 모델 (LLM)을 위한 인기 있는 추론 엔진 (Inference Engine)인 SGLang은 GPU 간의 텐서 병렬성 (Tensor Parallelism)을 위해 NVLink 멀티캐스트 (Multicast)에 크게 의존합니다. 멀티캐스트 (Multicast)가 없으면 각 GPU는 다른 GPU로부터 데이터를 개별적으로 가져와야 하므로, 지연 시간 (Latency)이 증가하고 처리량 (Throughput)이 감소하게 됩니다.

이것이 보도 자료가 시사하는 것보다 더 중요한 이유

NVLink 멀티캐스트 (Multicast) 성능 퇴보는 NVIDIA의 기밀 컴퓨팅 (Confidential Computing) 설계에 내재된 구조적 트레이드오프 (Trade-off)를 드러냅니다. 메모리 암호화 (Memory Encryption) 및 격리 (Isolation)를 달성하기 위해, NVIDIA는 하드웨어 레벨의 기능인 NVLink 멀티캐스트를 비활성화해야만 합니다. 이는 패치로 해결할 수 있는 소프트웨어 버그가 아닙니다. 기밀 컴퓨팅을 필요로 하는 모든 워크로드에 대해 영구적인 성능 영향을 미치는 설계상의 선택입니다.

규제 환경 (금융, 의료, 정부 등)에서 대규모 모델을 배포하는 기업 고객들에게 이는 중대한 문제입니다. 그들은 보안 (기밀 컴퓨팅)과 성능 (NVLink 멀티캐스트) 사이에서 하나를 선택해야 합니다. 61%의 성능 퇴보는 기밀 컴퓨팅 환경에서의 대규모 모델 추론 (Inference)을 지연 시간에 민감한 애플리케이션에서 거의 실행 불가능한 수준으로 만듭니다.

더 넓은 맥락

이는 단발적인 사건이 아닙니다. 올해 초, NVIDIA의 Grace Hopper 슈퍼칩은 기밀 컴퓨팅 모드에서의 메모리 대역폭 (Memory Bandwidth) 제한으로 인해 비판을 받은 바 있습니다. 이러한 패턴은 NVIDIA가 보안 기능의 엄격한 검증보다 시장 출시 속도 (Time-to-market)를 우선시하고 있음을 시사합니다. 전체 인터커넥트 대역폭 (Interconnect Bandwidth)을 유지하면서 기밀 컴퓨팅을 지원하는 AMD의 MI300X와 같은 경쟁사들이 이러한 약점을 공략할 수 있습니다.

주시해야 할 점

NVIDIA의 대응을 지켜봐야 합니다. 성능 퇴보를 완화하는 펌웨어 업데이트(하드웨어 특성상 가능성이 낮음)가 나오거나, 해당 한계를 인정하는 수정된 백서 (Whitepaper)가 발표될 수 있습니다. 또한 @verdacloud의 GitHub 티켓 업데이트를 모니터링하고, 대규모 모델에 대한 기밀 컴퓨팅 성능을 보여주는 AMD 또는 Intel의 벤치마크 비교 자료를 주시하십시오.

핵심 요약

NVIDIA Blackwell 기밀 컴퓨팅은 NVLink 멀티캐스트를 비활성화하며, 이로 인해 SGLang Qwen3.5 397B에서 61%의 성능 퇴보가 발생합니다.
Hopper는 암호화되지 않은 NVLink를 사용했기에 문제가 더욱 가중되었습니다.

주시해야 할 점

Low Latency Inference Chapter 2: Blackwell is Coming. NVIDIA GH200 ...

NVIDIA의 공식 대응을 주시하십시오. 펌웨어 업데이트(가능성 낮음)이거나, 해당 한계를 인정하는 수정된 백서 (Whitepaper)가 나올 수 있습니다. 또한 @verdacloud의 GitHub 티켓(Ticket)을 통해 업데이트를 모니터링하고, 대규모 모델에서의 기밀 컴퓨팅 (Confidential Computing) 성능을 보여주는 AMD 또는 Intel의 벤치마크 (Benchmark) 비교 결과도 확인하시기 바랍니다.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Blackwell NVLink가 기밀 컴퓨팅 (Confidential Compute)을 저해하며 61% 성능 퇴보 보고됨

요약

핵심 포인트

핵심 요약

주시해야 할 점

댓글