본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 27. 10:02

4x5060 Ti bifurcation 환경에서의 P2P 트러블슈팅 결과

요약

4x5060 Ti bifurcation 환경에서 PCIe 브리지가 P2P 통신의 병목 지점이 되어 성능 저하를 일으키는 문제를 분석합니다. 이를 해결하기 위한 하드웨어 교체, 병렬 처리 방식 변경 등 다양한 트러블슈팅 방안을 제시합니다.

핵심 포인트

  • bifurcation 카드가 PCIe 브리지 역할을 하며 P2P 대역폭 병목 유발
  • P2P 활성화 시 이득은 10~15% 수준으로 설정 비용 대비 낮을 수 있음
  • SlimSAS 브리지 또는 전용 PCIe 브리지 구매를 통한 하드웨어 해결 가능
  • Tensor Parallelism 대신 Pipeline Parallelism 사용 고려
  • 각 슬롯에 전용 레인을 제공하는 메인보드 및 CPU 조합 권장

저는 지난 일주일 동안 이 문제를 깊이 파고들며 시간을 보냈습니다. 저는 14년 동안 Linux를 사용해 왔으며, 프라이빗 클라우드 제공업체를 위한 Linux 인프라 지원에 집중하고 있는 클라우드 시스템 엔지니어입니다.

본질적으로, 만약 여러분이 메인보드의 x16 슬롯에 삽입된 단일 4x4 bifurcation PCIe x16 카드를 사용하고 있고, 거기에 4개의 GPU가 연결되어 있다면, PCIe 세대와 상관없이 bifurcation을 수행하는 그 카드가 P2P (Peer-to-Peer) 통신의 병목 지점(choke point)이 됩니다. 해당 카드는 GPU들을 연결하는 PCIe 브리지 역할을 하는데, TP=4 (Tensor Parallelism=4)일 때 해당 PCI 브리지 상의 4개 카드를 연결하는 패브릭(fabric)의 대역폭이 포화되어 P2P를 껐을 때보다 더 나쁜 성능을 내게 됩니다. 이를 해결하는 방법은 다음과 같습니다:

  • P2P를 실행하지 마세요. 이득은 겨우 10~15% 정도이며, P2P를 통해 그 10%의 성능을 얻기 위한 설정 비용과 노력을 정당화하지 못할 수도 있습니다.

  • 중국산 SlimSAS bifurcation 브리지를 구매하세요. 이론적으로는 그것들을 사용하면 이 문제에 직면하지 않을 수도 있습니다. 가격은 150에서 250달러 사이입니다.

  • Cpayne에서 1200 Gen 4 PCIe 브리지를 구매하세요. 이 장치들은 특히 이 사용 사례를 위해 만들어졌습니다. 하지만 10%의 성능 향상을 위해 1200달러를 지출하는 것은 아마도 가치가 없을 것입니다.

  • Tensor Parallelism (TP)을 사용하지 마세요. Pipeline Parallelism (PP)을 사용하세요. 이 방법의 단점은 제 벤치마크 결과, 낮은 동시성(concurrency)에서는 PP가 TP=4 + P2P off 조합보다 성능이 더 낮게 나왔다는 점입니다. PP=4는 모든 GPU가 다른 GPU의 작업 완료를 기다리지 않고 각자 처리할 작업이 있는 충분한 수준의 동시성이 확보될 때에만 더 나은 성능을 제공합니다.

  • eBay에서 중고 PLX 스위치를 구할 수 있습니다. 하지만 이 경우, 저장 장치가 아닌 장치 사용을 제한하는 펌웨어 제약으로 인해 P2P를 지원하는 멀티 GPU 설정을 지원하지 못할 위험이 있습니다.

  • 기본(primary) 슬롯과 보조(secondary) x16 슬롯 모두에 전용 x16 레인을 제공하는 메인보드와 CPU 조합을 사용하세요. 8i bifurcation을 통해 각 슬롯에 2개씩의 GPU를 배치하여 두 슬롯 모두를 활용할 수 있습니다.

하지만 해당 설정을 Gen4 또는 Gen5를 사용하기 위해 리타이머 (Retimer)가 필요하게 된다면, 이 두 개의 리타이머 bifurcation 카드 각각에 130달러 이상을 지불해야 한다는 뜻입니다.

만약 제가 나열하지 않은 해결책이 있다면 알려주세요. 이 게시물을 업데이트하도록 하겠습니다.
submitted by /u/joorklee
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0