Reddit중요요약2026. 04. 24. 07:01

Dual DGX Spark (Asus GX10)로 로컬 LLM 구동 성능 테스트 결과 공유

요약

기존 고발열/고소음의 GPU 환경(3090, MI50 등)에서 Asus GX10 기반의 Dual DGX Spark 시스템으로 변경한 후 로컬 LLM 구동 성능을 테스트했습니다. 특히 Llama Benchy 벤치마크를 통해 다양한 컨텍스트 길이(Depth)와 토큰 수에 따른 추론 속도(t/s), 첫 토큰 시간(TTFR), 종단 간 TTFT(e2e_ttft) 등을 측정했습니다. 결과적으로, 이 시스템은 대용량 컨텍스트 처리에서 안정적이고 효율적인 성능을 보여주었으며, 특히 32k Depth와 100k Depth 테스트에서도 높은 추론

핵심 포인트

Dual Asus GX10 (DGX Spark) 시스템은 개당 약 100W 전력 소비로 기존 고성능 GPU 대비 발열 및 소음 문제를 크게 개선했습니다.
Llama Benchy 테스트 결과, 컨텍스트 길이(Depth)가 증가함에 따라 추론 속도(t/s)는 점진적으로 감소하는 경향을 보였으나, 시스템은 안정적으로 작동함을 입증했습니다.
32768 Depth에서 pp2048의 경우 15512.65ms의 e2e_ttft를 기록했으며, 이는 대규모 컨텍스트 처리 능력을 보여줍니다.
최대 102400 Depth 테스트에서는 추론 속도가 1167.98 t/s (pp2048)로 측정되었으며, 시스템의 확장성과 안정성을 확인했습니다.

본 게시물은 기존 고발열 및 고소음 환경에서 로컬 LLM 구동을 위해 Asus GX10 기반의 Dual DGX Spark 시스템으로 업그레이드한 후 얻은 성능 테스트 결과를 공유합니다. 이전에는 3090과 MI50 등 여러 GPU를 사용했지만, 발열과 소음에 지쳐 새로운 솔루션을 찾게 되었습니다.

시스템 개요 및 장점:
새로 도입한 Dual Asus GX10 (DGX Spark) 시스템은 각 장치가 약 100W의 전력을 소비하여, 기존 고성능 GPU들이 발생시키던 열과 소음 문제를 효과적으로 해결했습니다. 이 덕분에 훨씬 쾌적하고 안정적인 환경에서 LLM 추론 작업을 수행할 수 있게 되었습니다.

테스트 환경 및 목적:
주요 테스트는 Llama Benchy를 사용하여 다양한 컨텍스트 길이(Depth)와 토큰 수에 따른 성능을 측정하는 데 초점을 맞췄습니다. 사용된 모델은 MiniMax-M2.7-AWQ-4bit이며, Open Code나 Hermes Agent 등 실제 애플리케이션에서 오류 없이 안정적으로 구동됨을 확인했습니다.

Llama Benchy 성능 분석 (Generation Latency Mode):
테스트 결과는 컨텍스트 길이(Depth)가 증가함에 따라 시스템의 처리 능력이 어떻게 변화하는지를 명확히 보여줍니다.

컨텍스트 의존성: Depth가 2048에서 32768로 증가할 때, pp2048의 추론 속도(t/s)는 약 3452 t/s에서 1988 t/s로 감소했습니다. 이는 컨텍스트 길이가 늘어날수록 처리해야 할 정보량이 기하급수적으로 증가하기 때문에 발생하는 자연스러운 현상입니다.
대용량 컨텍스트 처리: 가장 인상적인 부분은 최대 102400 Depth 테스트 결과입니다. 이 깊이에서 pp2048의 e2e_ttft(End-to-End Time To First Token)는 약 78,208.59ms를 기록했습니다. 이는 수만 개의 토큰을 처리하는 대규모 컨텍스트에서도 시스템이 안정적으로 작동하며 높은 수준의 성능을 유지할 수 있음을 의미합니다.
성능 비교: Depth가 증가함에 따라 TTFR(Time To First Token)과 e2e_ttft 모두 급격히 증가하지만, 측정된 값들이 일관성을 보여주어 시스템의 신뢰도를 높였습니다.

결론:
Dual DGX Spark 시스템은 단순히 높은 성능을 제공하는 것을 넘어, 운영 환경의 쾌적함과 안정성이라는 중요한 가치를 제공했습니다. 대용량 컨텍스트를 요구하는 최신 LLM 애플리케이션(예: RAG, 복잡한 추론)에 매우 적합하며, 기존 고발열 장비에서 벗어나고자 하는 사용자들에게 강력하게 추천할 만한 솔루션입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Dual DGX Spark (Asus GX10)로 로컬 LLM 구동 성능 테스트 결과 공유

요약

핵심 포인트

댓글