Dual DGX Spark (Asus GX10)로 로컬 LLM 구동 성능 테스트 결과 공유
요약
기존 고발열/고소음의 GPU 환경(3090, MI50 등)에서 Asus GX10 기반의 Dual DGX Spark 시스템으로 변경한 후 로컬 LLM 구동 성능을 테스트했습니다. 특히 Llama Benchy 벤치마크를 통해 다양한 컨텍스트 길이(Depth)와 토큰 수에 따른 추론 속도(t/s), 첫 토큰 시간(TTFR), 종단 간 TTFT(e2e_ttft) 등을 측정했습니다. 결과적으로, 이 시스템은 대용량 컨텍스트 처리에서 안정적이고 효율적인 성능을 보여주었으며, 특히 32k Depth와 100k Depth 테스트에서도 높은 추론
핵심 포인트
- Dual Asus GX10 (DGX Spark) 시스템은 개당 약 100W 전력 소비로 기존 고성능 GPU 대비 발열 및 소음 문제를 크게 개선했습니다.
- Llama Benchy 테스트 결과, 컨텍스트 길이(Depth)가 증가함에 따라 추론 속도(t/s)는 점진적으로 감소하는 경향을 보였으나, 시스템은 안정적으로 작동함을 입증했습니다.
- 32768 Depth에서 pp2048의 경우 15512.65ms의 e2e_ttft를 기록했으며, 이는 대규모 컨텍스트 처리 능력을 보여줍니다.
- 최대 102400 Depth 테스트에서는 추론 속도가 1167.98 t/s (pp2048)로 측정되었으며, 시스템의 확장성과 안정성을 확인했습니다.
본 게시물은 기존 고발열 및 고소음 환경에서 로컬 LLM 구동을 위해 Asus GX10 기반의 Dual DGX Spark 시스템으로 업그레이드한 후 얻은 성능 테스트 결과를 공유합니다. 이전에는 3090과 MI50 등 여러 GPU를 사용했지만, 발열과 소음에 지쳐 새로운 솔루션을 찾게 되었습니다.
시스템 개요 및 장점:
새로 도입한 Dual Asus GX10 (DGX Spark) 시스템은 각 장치가 약 100W의 전력을 소비하여, 기존 고성능 GPU들이 발생시키던 열과 소음 문제를 효과적으로 해결했습니다. 이 덕분에 훨씬 쾌적하고 안정적인 환경에서 LLM 추론 작업을 수행할 수 있게 되었습니다.
테스트 환경 및 목적:
주요 테스트는 Llama Benchy를 사용하여 다양한 컨텍스트 길이(Depth)와 토큰 수에 따른 성능을 측정하는 데 초점을 맞췄습니다. 사용된 모델은 MiniMax-M2.7-AWQ-4bit이며, Open Code나 Hermes Agent 등 실제 애플리케이션에서 오류 없이 안정적으로 구동됨을 확인했습니다.
Llama Benchy 성능 분석 (Generation Latency Mode):
테스트 결과는 컨텍스트 길이(Depth)가 증가함에 따라 시스템의 처리 능력이 어떻게 변화하는지를 명확히 보여줍니다.
- 컨텍스트 의존성: Depth가 2048에서 32768로 증가할 때, pp2048의 추론 속도(t/s)는 약 3452 t/s에서 1988 t/s로 감소했습니다. 이는 컨텍스트 길이가 늘어날수록 처리해야 할 정보량이 기하급수적으로 증가하기 때문에 발생하는 자연스러운 현상입니다.
- 대용량 컨텍스트 처리: 가장 인상적인 부분은 최대 102400 Depth 테스트 결과입니다. 이 깊이에서 pp2048의 e2e_ttft(End-to-End Time To First Token)는 약 78,208.59ms를 기록했습니다. 이는 수만 개의 토큰을 처리하는 대규모 컨텍스트에서도 시스템이 안정적으로 작동하며 높은 수준의 성능을 유지할 수 있음을 의미합니다.
- 성능 비교: Depth가 증가함에 따라 TTFR(Time To First Token)과 e2e_ttft 모두 급격히 증가하지만, 측정된 값들이 일관성을 보여주어 시스템의 신뢰도를 높였습니다.
결론:
Dual DGX Spark 시스템은 단순히 높은 성능을 제공하는 것을 넘어, 운영 환경의 쾌적함과 안정성이라는 중요한 가치를 제공했습니다. 대용량 컨텍스트를 요구하는 최신 LLM 애플리케이션(예: RAG, 복잡한 추론)에 매우 적합하며, 기존 고발열 장비에서 벗어나고자 하는 사용자들에게 강력하게 추천할 만한 솔루션입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기