Ollama v0.30.0, Qwen3.5 35B, & WebGPU 기반 1-bit 멀티모달 AI

오늘의 하이라이트

이번 주, Ollama의 v0.30.0 프리릴리스(pre-release)는 개선된 llama.cpp 상호 운용성을 암시하며, 새로운 Qwen3.5 35B 모델은 강력한 로컬 추론 (local inference)을 위한 다양한 양자화 (quantization) 형식을 제공합니다. 접근성 측면에서의 하이라이트는 PrismML의 Bonsai Image 4B로, WebGPU를 통해 브라우저에서 직접 1-bit 텍스트-투-이미지 확산 (text-to-image diffusion) 모델을 실행할 수 있게 해줍니다.

Qwen3.5 35B A3B Uncensored Heretic: GGUF & GPTQ 형식 사용 가능 (r/LocalLLaMA)

출처: https://reddit.com/r/LocalLLaMA/comments/1tnzalm/qwen35_35b_a3b_uncensored_heretic_native_mtp/

Qwen 시리즈의 이번 새로운 출시, 특히 35B A3B "uncensored heretic" 변체는 로컬 추론 (local inference)을 위해 사용 가능한 오픈 웨이트 (open-weight) 모델의 주목할 만한 추가 사항입니다. 이 모델은 "Native MTPs" (Multi-Turn Preserved contexts 또는 특정 학습 데이터 특성)의 보존을 우선시하며, 785개의 MTP를 모두 유지합니다. 이러한 집중은 일관되고 확장된 대화 능력을 강조함을 시사하며, 이는 복잡한 다회차 상호작용 (multi-turn interactions)에 매우 중요할 수 있습니다.

로컬 AI 애호가들에게 매우 중요한 점은, 이 모델이 광범위하고 최적화된 형식으로 배포된다는 것입니다. 사용자들은 이를 가공되지 않은 Safetensors로 사용하거나, GGUF (NVFP4 GGUF 포함) 및 GPTQ-Int4 형식과 같은 양자화 (quantized) 버전을 통해 이용할 수 있습니다. 이러한 양자화 옵션은 소비자급 GPU에서의 배포를 가능하게 하는 데 필수적이며, 전문 등급의 하드웨어 없이도 더 많은 커뮤니티 구성원이 강력한 350억 파라미터 (35-billion parameter) 모델을 실험할 수 있도록 해줍니다. 이러한 다양한 형식의 가용성은 llama.cpp 및 text-generation-webui와 같은 인기 있는 로컬 추론 엔진과의 통합을 용이하게 하여, 셀프 호스팅 배포 (self-hosted deployments)의 유연성을 높여줍니다.

댓글: 이번 릴리스는 최적화된 형식의 상당한 규모를 가진 오픈 웨이트 (open-weight) 모델을 제공하여, 더 강력한 소비자용 GPU를 보유한 사용자들이 로컬에서 더 진보된 기능을 탐색할 수 있도록 해줍니다.

PrismML, Bonsai Image 4B 출시: WebGPU 기반 1-bit/Ternary 비전 (r/LocalLLaMA)

출처: https://reddit.com/r/LocalLLaMA/comments/1togflk/prismml_just_released_binary_and_ternary_bonsai/

PrismML이 Binary 및 Ternary Bonsai Image 4B 모델을 공개했습니다. 이는 로컬 멀티모달 (multimodal) AI, 특히 텍스트-투-이미지 (text-to-image) 생성 분야에서 상당한 진전을 의미합니다. 이 모델들은 1-bit 및 ternary 디퓨전 트랜스포머 (diffusion transformers)라는 점에서 독특하며, 이는 연산량 (computational footprint)을 획기적으로 줄여줍니다. 크기가 약 3GB에 불과하여 FLUX.2 Klein 4B (~16GB)와 같은 유사 모델보다 훨씬 작으며, 소비자용 GPU를 포함한 제한된 환경에서 매우 효율적입니다.

가장 혁신적인 측면은 WebGPU를 활용하여 웹 브라우저 내에서 완전히 로컬로 실행할 수 있는 능력입니다. 이는 복잡한 로컬 설정이나 전용 하이엔드 GPU의 필요성을 제거하여, 사용자의 웹 브라우저에서 직접 강력한 생성형 AI (generative AI) 기능을 사용할 수 있도록 민주화합니다. Apache-2.0 라이선스 하에 출시된 이 모델들은 Hugging Face에서 자유롭게 이용할 수 있으며, 개발자와 애호가들이 광범위한 소비자용 기기에서 고도로 최적화된 브라우저 기반 이미지 생성을 실험해 볼 수 있도록 초대합니다. 이 혁신은 극한의 양자화 (extreme quantization)와 WebGPU가 고급 AI 모델을 어디에나 존재하게 하고 쉽게 접근할 수 있게 만드는 잠재력을 보여줍니다.

댓글: WebGPU를 통해 브라우저에서 직접 1-bit 디퓨전을 구현한 것은 로컬의 접근 가능한 멀티모달 AI를 위한 중대한 도약이며, 하드웨어 장벽을 극적으로 낮춥니다.

Ollama v0.30.0 프리릴리스, `llama.cpp` 상호 운용성 암시 (r/Ollama)

출처: https://reddit.com/r/ollama/comments/1tnomhq/ollama_v0300_prerelease/

Ollama v0.30.0의 프리릴리스(pre-release)는 인기 있는 로컬 AI 런타임(runtime) 사용자들을 위한 중요한 향후 개선 사항을 예고합니다. 전체 업데이트에 대한 구체적인 릴리스 노트(release notes)는 아직 대기 중이지만, 이번 프리릴리스를 둘러싼 커뮤니티의 논의는 매우 중요한 예상 기능 하나를 강조하고 있습니다. 바로 llama.cpp와의 상호 운용성(interoperability) 개선입니다. 이는 Ollama와 가공되지 않은 llama.cpp 환경을 모두 빈번하게 사용하는 많은 사용자들에게 오랫동안 지속된 고충을 해결해 줍니다.

현재 사용자들은 각 시스템에 맞추기 위해 동일한 모델 파일을 서로 다른 형식이나 디렉토리에 여러 번 다운로드하고 저장해야 하는 상황에 자주 직면합니다. "동일한 모델을 여러 번 다운로드하거나 임시방편적인 해결책(workarounds)에 의존하지 않고도 상호 운용성을 달성한다"는 언급은, Ollama가 내부 형식을 표준화하거나 GGUF 파일의 원활한 변환/연결을 제공함으로써 더욱 통합된 모델 관리 시스템을 향해 나아가고 있음을 강력하게 시사합니다. 이는 워크플로우를 크게 간소화하고, 디스크 공간 사용량을 줄이며, 오픈 웨이트(open-weight) 모델을 로컬에서 실행하는 개발자와 애호가들의 전반적인 경험을 향상시켜 생태계를 더욱 응집력 있고 효율적으로 만들 것입니다.

댓글: Ollama에서 llama.cpp 상호 운용성이 개선되면 모델 관리가 단순해져서, 사용자들이 중복 없이 두 생태계 모두에서 GGUF 모델을 더 효율적으로 활용할 수 있게 될 것입니다.

Ollama v0.30.0, Qwen3.5 35B, & WebGPU 기반 1-bit 멀티모달 AI

요약

핵심 포인트