Ethernet LAN을 통해 두 개의 GPU에 FLUX 2 모델을 분산하기 위한 커스텀 NVENC 인코더 브릿지를 구축했습니다 (예:
요약
본 기술 기사는 Ethernet LAN을 통해 두 개의 GPU에 FLUX 2 모델을 분산하는 커스텀 NVENC 인코더 브릿지 구축 경험을 공유합니다. 이 시스템은 초기에는 Flux 2 Dev 및 Klein 9b를 지원하며, Tailscale과 같은 VPN을 이용해 원격 환경(카페 노트북-집 데스크톱)에서도 테스트가 가능함을 보여줍니다. 또한, 32B 및 70B LLM 모델 분산 버전도 개발하여 출시할 예정입니다.
핵심 포인트
- 커스텀 NVENC 인코더 브릿지를 구축하여 FLUX 2와 같은 비주얼 모델을 두 GPU에 분산 처리할 수 있게 함.
- Tailscale과 같은 VPN 및 Ethernet LAN 연결을 활용하여 원격/분산 환경에서도 고성능 이미지 생성이 가능함 (예: 5090 데스크톱-4090 노트북 간 1MP 이미지 생성).
- FLUX 2 Dev의 경우, Turbo LoRA 사용 시 Icarus 노드 배치 방법을 안내하여 로컬 및 원격 가중치에 걸쳐 올바르게 적용하는 방법을 제시함.
- 32B 및 70B LLM 모델을 두 대의 머신에 분산하여 효과적으로 작동시키는 코덱 버전도 개발 중임.
초기에는 Flux 2 Dev 및 Klein 9b를 지원합니다. 여러분이 빠르게 실행할 수 있도록 멋진 readme를 작성하는 데 엄청난 노력을 기울였습니다. 몇 가지 이슈가 발생할 수 있으며, 향후 테스트 요청을 받을 예정입니다. NVENC를 지원하는 모든 Nvidia 카드가 가능합니다.
심지어 카페에 있는 제 노트북과 집에 있는 데스크톱을 모바일 테더링으로 연결하여 테스트해 보았는데, 모델의 70%는 집에, 30%는 카페의 노트북에 두고 8초 이내에 1MP 이미지를 생성했습니다. (이를 위해 편리한 무료 VPN인 tailscale을 사용했습니다)
지금까지 너무 커서 다루기 힘들었던 LTX, Wan 및 기타 일부 비주얼 모델들도 지원할 계획입니다.
추신: Github의 이슈(issues)를 통해 네트워크 관련 도움 요청은 지원할 수 없으며, 아키텍처 및 사용성 문제에 집중할 예정입니다.
이를 위해 제가 만든 코덱(codec)과 관련하여, 32B 및 70B LLM 모델을 두 대의 머신에 분산하여 동일하게 효과적으로 작동하는 버전도 만들었으며, 이번 주 중에 출시하도록 노력하겠습니다. 또한 이 노드의 readme에서 여러분이 사용할 수 있도록 해당 코덱을 위한 별도의 Github Repo를 제공했음을 확인하실 수 있습니다.
이제 자러 가겠습니다. 여기는 새벽 3시 25분이네요. 이것을 내놓게 되어 기쁘며, 여러분에게 도움이 되기를 바랍니다.
flux 2 Dev를 위한 빠른 참고 사항. 만약 거대한 2.5gb turbo lora를 사용 중이라면, 서버 앱의 lora 필드에서 사용한 다음 Icarus 노드의 오른쪽(가중치가 중복되지 않도록)에 배치하세요. 그렇게 하면 가중치를 선을 통해 주고받지 않고도 로컬 및 원격의 모든 가중치에 걸쳐 올바르게 사용됩니다! 이 설정을 통해 저는 5090 데스크톱과 4090 노트북 사이의 1gb ethernet에 모델을 분산하여 Flux 2 Dev 1mp 이미지를 14초 만에 생성할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기