
화제의 RADEON RX9060XT 16G를 구매해서 AI를 이것저것 만져본 메모
요약
AMD Radeon RX9060XT 16G 그래픽카드를 활용하여 Windows 네이티브 환경에서 AI 모델을 구동하는 실전 경험을 공유합니다. ROCm과 개발 버전 소프트웨어를 활용해 Ollama, ComfyUI 등을 설정하는 구체적인 방법을 다룹니다.
핵심 포인트
- ROCm 및 Windows 네이티브 환경 활용 권장
- Ollama 및 PyTorch는 최신 개발 버전 설치 필요
- ComfyUI 설치 시 ROCm 대응 torch 필수 사용
- VRAM 16G를 활용한 Gemma-4 등 모델 구동 가능
5만(엔)에 VRAM 16G라는 소리를 듣고 바보처럼 덥석 달려들었어.
AI를 어느 정도 쓸 수 있게 되었다는 이야기는 들었지만, 지금 딱 이것저것 만져보고 있는 중이라 수시로 메모해 두려고 해.
나중에 대략적인 요약을 영상으로 만들지도 모르겠네.
우선 전제로, 여기서 '작동한다'는 것은 원칙적으로 'DirectML 같은 게 아니라 ROCm으로', 'WSL이 아니라 Windows 네이티브로' 작동하는 것을 의미해.
결론부터 말하자면, 세상에서 말하는 것보다는 훨씬 제대로 작동해. 다만 2026/05/31 현재, 릴리스 버전(Release version)으로 작동하지 않는 것들이 많아서 수시로 개발 버전(Development version)을 설치해야 하는 상황이야.
반대로 말하면 개발 버전으로는 문제없이 작동하는 것이 많기 때문에, 이것들이 릴리스 버전으로 올라오면 순차적으로 문제는 해결될 것이라고 생각할 수 있어. 그런 의미에서는 RADEON의 미래는 밝지 않을까?
소프트웨어에 따라 최적화 정도는 다르지만, 적어도 동등한 스펙의 GeForce보다 몇 배나 느린 수준은 아니야. 하지만 세상의 벤치마크를 본 느낌으로는 5060Ti에는 약간 밀리는 느낌이 들어. VRAM 대역폭(Bandwidth)이 부실한 탓일까?
평범하게 AMD Software: Adrenalin Edition 최신 버전을 설치해.
이 부분은 딱히 이상한 것을 설치할 필요는 없다고 봐.
llama.cpp의 최신 버전부터 대응되는 것 같아.
2026/05/31 현재 Ollama는 릴리스 버전(0.24.0)으로는 작동하지 않아. Ollama의 개발 버전을 설치하자(0.30.0).
자, 이게 전부야. 승리. NVIDIA 환경과 다를 바 없이 작동한다고 생각해.
모델은 Unsloth에서 적당히 가져오면 돼.
마침 VRAM 16G에 딱 맞으면서 퍼포먼스가 좋아 보이는 것을 꼽자면, 예를 들어 gemma-4-26B-A4B의 IQ4_XS 같은 것이 적당할 것 같아.
ollama run hf.co/unsloth/gemma-4-26B-A4B-it-GGUF:UD-IQ4_XS
학습 같은 건 잘 몰라. 있는 걸 쓰면 되는 거 아냐?
ComfyUI가 이미 AMD를 공식 지원하고 있어.
다만 아직 인스톨러(Installer) 완성도가 좋지 않다는 이야기도 들리니까, 예스러운 방식으로 매뉴얼 설치를 하는 편이 좋을 것 같아.
우선 본체를 git으로 가져와.
git clone https://github.com/Comfy-Org/ComfyUI.git
venv 설정을 해.
cd ComfyUI
python3.13 -m venv venv
.\venv\Scripts\activate
그리고 가장 중요한 포인트. ROCm 대응 torch를 가져와.
이 gfx**** 부분은 GPU마다 달라.
2026/05/31 현재, 릴리스 버전은 뭔가 버그가 있다는 소문을 들었으니 개발 버전을 써줘. ComfyUI 공식 측에서도 이것을 권장하고 있어.
pip install --pre torch torchvision torchaudio --index-url https://rocm.nightlies.amd.com/v2/gfx120X-all/
여기서부터는 GeForce와 동일해.
pip install -r requirements.txt
pip install -r manager_requirements.txt
실행 배치(Batch) 파일은
call venv\Scripts\activate
set COMFYUI_ENABLE_MIOPEN=1
set MIOPEN_FIND_MODE=FAST
...
이런 느낌으로 각자의 경로에 맞춰서 만들어줘.
일단 이미지를 만드는 것뿐이라면 이걸로 충분해. SDXL도 Anima도 가능하고, Unsloth에 있는 Qwen-Image 같은 것도 평범하게 쓸 수 있어. 대단해.
속도 면에서는 아주 대략적으로 말해서 RX9060XT로 1024x1024 SDXL이 10초 정도 걸리지 않을까?
아... 네... 뭐... 음...
일단 SDXL 모델에 대해 Tohoku Zunko 소재의 Lora를 sd-scripts로 만드는 단계까지는 어떻게든 완주했어.
이하 절차.
우선 sd-scripts를 가져와.
git clone https://github.com/kohya-ss/sd-scripts.git
venv를 설정해. 이번에는 3.12로 했어. 3.13은 뭔가 이상한 것 같아.
python3.12 -m venv venv
.\venv\Scripts\activate
각종 패키지를 설치. torch를 AMD용으로 가져오는 등의 작업은 ComfyUI와 동일한 노하우를 사용할 수 있어.
pip install --upgrade pip
pip install --pre torch torchvision --index-url https://rocm.nightlies.amd.com/v2/gfx120X-all/
pip install --upgrade -r requirements.txt
……그런데, 여기까지는 괜찮은데 아마 이대로라면 작동하지 않을 거야.
우선 bitsandbytes의 wheel이 없다는 등의 메시지가 나오면 공식 개발 버전을 가져와서 교체해. 릴리스 버전에는 아직 AMD용 wheel이 포함되어 있지 않은 모양이야. 제발 빨리 릴리스해 줘.
참고로 아래 URL은 2026/05/31 시점의 것이니 공식 사이트를 보고 최신 것을 체크해 줘.
pip uninstall -y bitsandbytes
pip install https://github.com/bitsandbytes-foundation/bitsandbytes/releases/download/continuous-release_main/bitsandbytes-1.33.7.preview-py3-none-win_amd64.whl
여기까지 가면 일단 시작은 할 수 있지만, 이대로 두면 완료 시점에
AttributeError: module 'torch.distributed' has no attribute 'is_initialized'
같은 에러가 뜨면서 실패할 것 같아. 올바른 해결 방법을 모르겠어(어?)
아마 AMD의 torch가 잘못된 것 같은데……
뭐, 어차피 분산 시스템 (distributed system) 같은 걸 사용하는 것도 아니니 군말 없이 주석 처리해 버리자.
# needed when using torch.distributed.init_process_group
- if torch.distributed.is_initialized():
- torch.distributed.destroy_process_group(group)
...
이렇게 해서 일단 끝까지 실행하는 데는 성공했어.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기