Dev.to헤드라인2026. 06. 07. 16:16

회귀 현상: 대형 GGUF 모델이 Ollama 0.24에서는 작동하지만 Fix 2026에서는 실패함

요약

Ollama 0.30.x 버전에서 Vulkan 메모리 할당 방식 변경으로 인해 대형 GGUF 모델 로드 시 VRAM 부족(OOM) 오류가 발생하는 회귀 현상을 다룹니다. 환경 변수 설정을 통해 메모리 사용 비율을 제한함으로써 문제를 해결할 수 있습니다.

핵심 포인트

Ollama 0.30.x의 공격적인 VRAM 예약 방식 변경
대형 양자화 모델 로드 시 Vulkan OOM 오류 발생
OLLAMA_VULKAN_MEMORY_FRACTION 환경 변수로 해결 가능

이 기사는 원래 runaihome.com에 게시되었습니다.

Ollama 0.30.x에서의 Vulkan OOM 회귀 현상

Ollama 0.30.x는 모델 텐서(tensor)를 위해 VRAM을 더 공격적으로 예약하도록 Vulkan 메모리 할당(memory allocation) 방식을 변경했습니다. 4 GB VRAM을 가진 시스템에서는 gemma4:26b-a4b-it-q4_K_M과 같은 대형 양자화(quantized) 모델을 로드할 때 즉각적인 메모리 부족(out-of-memory, OOM) 오류가 발생합니다. 이 회귀 현상은 더 보수적인 기본 할당 전략을 사용했던 Ollama 0.24에는 영향을 미치지 않습니다.

해결책 1: Vulkan 메모리 비율 제한

Ollama를 실행하기 전에 환경 변수(environment variable)를 설정하여 Vulkan 메모리 사용량을 사용 가능한 VRAM의 50%로 제한하십시오:

Windows (PowerShell):

$env:OLLAMA_VULKAN_MEMORY_FRACTION="0.5"
ollama run gemma4:26b-a4b-it-q4_K_M

Windows (Command Prompt):

set OLLAMA_VULKAN_MEMORY_FRACTION=0.5
...

AI 자동 생성 콘텐츠

원문 바로가기

회귀 현상: 대형 GGUF 모델이 Ollama 0.24에서는 작동하지만 Fix 2026에서는 실패함

요약

핵심 포인트

Ollama 0.30.x에서의 Vulkan OOM 회귀 현상

해결책 1: Vulkan 메모리 비율 제한

댓글