club-rdna16: 실용적인 16GB AMD/Radeon 로컬 LLM 테스트 리포지토리
요약
16GB AMD Radeon GPU 환경에서 llama.cpp와 ROCm/HIP를 활용한 로컬 LLM 실행 성능을 테스트하고 공유하는 리포지토리를 소개합니다. Qwen3.6 모델을 중심으로 컨텍스트 길이, KV 캐시, 전력 프로필 등 실용적인 벤치마크 데이터를 제공합니다.
핵심 포인트
- 16GB Radeon GPU를 위한 실용적인 로컬 LLM 테스트 데이터 제공
- RX 6900 XT에서 Qwen3.6 35B-A3B 모델의 우수한 성능 확인
- 컨텍스트 길이와 KV 캐시 설정이 실행 안정성에 미치는 영향 분석
- AMD 연산 전력 프로필이 긴 컨텍스트 프리필 성능에 기여함
club-5060ti에 이어, 저는 데스크톱 AMD GPU로 몇 가지 테스트를 진행해 왔으며 16GB Radeon 카드들을 위한 유사한 리포지토리(repo)를 만들고자 합니다.
리포지토리(Repo):
페이지/결과(Pages/results):
첫 번째 테스트 머신은 ROCm/HIP 환경에서 llama.cpp를 실행하는 RX 6900 XT 16GB입니다. 저는 주로 Unsloth MTP GGUF를 사용하여 Qwen3.6 27B와 Qwen3.6 35B-A3B를 테스트하고 있으며, 현재 UD-IQ3_XXS 모델 양자화(quant)와 q8 KV 캐시(KV cache)를 사용하고 있습니다.
이 리포지토리는 합성 벤치마크 리더보드(synthetic leaderboard)라기보다는 실용적인 것을 목적으로 합니다. 누군가 모델을 로컬에서 실행하고자 할 때 실제로 중요한 요소들을 포착하려고 노력하고 있습니다:
- 정확한 llama.cpp 실행 프로필 (launch profiles)
- 실제로 수용 가능한 컨텍스트 길이 (context length)
- KV 캐시 (KV cache) 설정
- 짧은 프롬프트 처리량 (short prompt throughput)
- 긴 컨텍스트 검색 확인 (long-context retrieval checks)
- AMD 전력 프로필 (power profile) 참고 사항
- ROCm/HIP 설정 세부 사항
- 다른 Radeon 사용자들을 위한 결과 템플릿
RX 6900 XT에서 얻은 몇 가지 초기 결과는 다음과 같습니다:
- Qwen3.6 35B-A3B가 이 카드에서 지금까지 가장 강력한 실용적 결과를 보여주었습니다.
- q8 KV를 사용한 131k 컨텍스트는 안정적인 비-MTP(non-MTP) 프로필로서 잘 작동합니다.
- q8 KV와 MTP를 사용한 100k 컨텍스트도 작동하지만, 세심한 설정이 필요합니다.
- 짧은 프롬프트에는 잘 응답하는 일부 프로필들이 긴 프롬프트에서는 실패하거나 비실용적으로 변하기도 합니다.
- AMD 연산 전력 프로필(compute power profile)이 긴 컨텍스트 프리필(long-context prefill)에서 실질적인 차이를 만들었습니다.
- Qwen3.6 27B도 실행되지만, 제 테스트에서는 지금까지 35B-A3B 프로필이 더 유용했습니다.
이 프로젝트가 RX 6900 XT, RX 6800 XT, RX 7800 XT, RX 7900 GRE, RX 9070 XT 및 이와 유사한 16GB AMD 카드 사용자들에게 유용해지기를 바랍니다.
만약 16GB Radeon 카드를 보유하고 있으며 동일한 스크립트를 실행해보고 싶은 분이 있다면, 결과 제출이 큰 도움이 될 것입니다. 가장 유용한 보고서에는 GPU, ROCm/드라이버 버전, 백엔드(backend), 전력 프로필(power profile), 모델, 모델 양자화(model quant), KV 캐시 유형, 컨텍스트 길이, 그리고 긴 컨텍스트 검색 테스트 통과 여부가 포함되어야 합니다.
아직 초기 단계이지만, AMD 사용자들이 흩어진 댓글들을 일일이 조합하는 대신 재현 가능한 llama.cpp/ROCm 결과를 비교할 수 있는 공간을 가질 수 있도록 공개적으로 공유할 가치가 있다고 판단했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기