Bonsai Image 4B: iPhone에서 실행되는 1-bit 확산 모델

Bonsai Image 4B는 PrismML이 2026년 5월 26일에 발표한 이미지 생성 모델 제품군으로, 서버 없이 노트북이나 휴대폰에서 직접 고품질 확산 (Diffusion) 모델을 실행하겠다는 구체적인 약속을 담고 있습니다. 핵심은 트랜스포머 (Transformer)의 가중치 (Weights)를 표현하는 방식에 있습니다. 일반적인 16비트 대신, 단 1비트(이진, Binary) 또는 1비트보다 약간 더 많은 비트(삼진, Ternary)만을 사용합니다.

회사에 따르면, 그 결과물은 iPhone에서 실행 가능한 동급 최초의 이미지 모델입니다. 삼진 (Ternary) 변형 모델의 경우 원본 모델 품질의 최대 95%를 유지하면서, 7.75 GB의 확산 트랜스포머 (Diffusion Transformer)를 0.93 GB로 —8.3배 압축— 줄였습니다.

요약 (TL;DR)

PrismML이 2026년 5월 26일에 Bonsai Image 4B를 출시했습니다: 로컬 디바이스에서 실행되도록 설계된 1-bit 및 삼진 (Ternary) 확산 (Diffusion) 모델입니다.
1-bit 트랜스포머 (Transformer)의 용량은 원본 FLUX.2 Klein 4B의 7.75 GB 대비 0.93 GB로, 8.3배 감소했습니다.
삼진 (Ternary) 변형 모델(1.21 GB, 6.4배 감소)은 GenEval, HPSv3 및 DPG-Bench에서 품질의 95%를 유지합니다.
iPhone 17 Pro Max에서는 512x512 이미지를 9.4초 만에 생성하며, Mac M4 Pro에서는 약 6초가 소요됩니다.
PrismML에 따르면, 이는 iPhone에서 직접 실행되는 동급 최초의 이미지 모델입니다.
그룹당 FP16 스케일링 인자를 사용하여 이진 (Binary) 가중치 {−1, +1} 또는 삼진 (Ternary) 가중치 {−1, 0, +1}를 사용합니다.
이 스택은 Apple Silicon에서는 MLX로, CUDA GPU에서는 저비트 (Low-bit) Gemlite 커널로 배포됩니다.

사건의 개요: Bonsai Image 4B가 여는 새로운 배포 체계

지금까지 고품질 확산 (Diffusion) 모델로 이미지를 생성하려면 거의 항상 데이터 센터의 GPU나 클라우드 서비스가 필요했습니다. Bonsai Image 4B는 다른 방식을 제안합니다. 바로 모델이 사용자의 디바이스 내에 존재하는 것입니다. PrismML은 동일한 문제를 서로 다른 두 가지 측면에서 해결하기 위해 설계된 동일한 베이스 모델의 두 가지 변형을 공개했습니다.

1-bit 변형 모델은 {−1, +1} 집합의 이진 가중치 (binary weights)와 그룹별 FP16 스케일링 인자를 사용하여, 가중치당 유효 비트 수를 1.125비트로 만듭니다. 이는 메모리, 대역폭(bandwidth), 그리고 배포 크기가 주요 제약 사항일 때 선택할 수 있는 옵션입니다. 삼진 (ternary) 변형 모델은 0이라는 세 번째 상태를 추가하여 {−1, 0, +1} 집합의 가중치를 사용하며, 이 역시 그룹별 FP16 스케일링을 적용하여 가중치당 유효 비트 수가 1.71비트가 됩니다. 이 추가된 0 상태는 모델에 더 많은 표현 유연성을 부여하여, 극도로 압축된 상태를 유지하면서도 시각적 품질과 프롬프트 충실도(prompt fidelity)를 향상시킵니다.

이러한 기술적 차이가 가져오는 실질적인 결과는 발표의 제목에 담겨 있습니다. Bonsai Image 4B를 통해, 이전에는 전화기에 담을 수 없었던 클래스의 모델이 이제는 전화기에서 실행됩니다. iPhone 17 Pro Max에서 전체 정밀도(full precision)의 FLUX.2 Klein 4B 파이프라인은 기기의 메모리 예산 내에 들어오지 못하지만, Bonsai의 두 변형 모델은 메모리 한도 내에서 실행 가능합니다.

작동 원리: 왜 트랜스포머 (transformer)가 중요한가

Bonsai Image 4B가 어떻게 이러한 축소를 달성했는지 이해하려면, 생성 과정 중 메모리가 어디에서 소비되는지를 살펴보아야 합니다. 4B 클래스의 확산 모델 (diffusion model)에서 확산 트랜스포머 (diffusion transformer)는 가장 큰 부분이며, 무엇보다 반복적으로 실행되는 부분입니다. 매 디노이징 (denoising) 단계마다 트랜스포머를 다시 호출하므로, 트랜스포머의 크기는 메모리 압박, 대역폭 요구량, 그리고 로컬 추론 (inference) 속도를 직접적으로 결정합니다.

Bonsai는 FLUX.2 Klein 4B를 기반으로 하며 아키텍처를 그대로 유지합니다. 유일하게 변하는 점은 트랜스포머 가중치의 표현 방식이며, 이를 이진 또는 삼진 형태로 변환합니다. 이진 레이어는 전체 정밀도 가중치 대비 약 14배에 가까운 축소 효과를 제공합니다. 품질 저하를 막기 위해 정밀도에 민감한 작은 텐서 집합(약 5%)인 프로젝션 레이어 (projection layers)는 FP16으로 유지됩니다. 이를 통해 최종 1-bit 트랜스포머는 0.93 GB가 되며, 이는 원본의 7.75 GB보다 8.3배 작은 크기입니다.

💭 핵심 (Clave): 모든 부분이 동일하게 압축되는 것은 아닙니다. 가장 민감한 약 5%의 텐서(tensor)는 FP16으로 유지되는 반면, 트랜스포머(transformer)의 대부분은 1비트(bit)로 낮아집니다. 이러한 비대칭성이 품질 저하 없이 크기를 8배 줄일 수 있게 해주는 핵심입니다.

단계별 생성 흐름을 살펴보면 왜 트랜스포머의 크기가 그토록 결정적인지 명확히 알 수 있습니다:

graph LR
 A["텍스트 프롬프트 (Prompt of texto)"] --> B["텍스트 인코더 (Codificador de texto)"]
 B --> C["노이즈가 포함된 잠재 변수 (Latente con ruido)"]
...

트랜스포머는 매 디노이징(denoising) 단계마다 호출됩니다. 따라서 트랜스포머의 크기를 줄이는 것은 전체 연산 예산(budget)을 바꾸는 일입니다.

배경 및 역사: BitNet에서 양자화된 확산 모델까지

매우 적은 비트(bit)로 신경망을 표현한다는 아이디어는 새로운 것이 아니지만, 이를 유용한 품질로 실제 서비스에 적용하는 것은 최근의 일입니다. 언어 모델(language models) 분야에서 Microsoft의 BitNet b1.58에 관한 연구는 압축과 성능 사이의 최적의 지점으로서 삼진 가중치(ternary weights) {−1, 0, +1}의 개념을 대중화했습니다. 각 가중치는 약 1.58비트의 정보를 저장하지만, 곱셈이 본질적으로 덧셈과 뺄셈이 되기 때문에 연산이 크게 단순화됩니다.

Bonsai Image 4B는 이 원칙을 확산(diffusion) 영역으로 옮겨왔습니다. 확산 모델은 각 이미지를 생성하기 위해 네트워크를 수십 번 통과해야 하므로 텍스트 생성보다 훨씬 더 까다로운 것으로 알려져 있습니다. 역사적으로 겸손한 사양의 하드웨어에서 확산 모델을 실행하는 방법은 Stable Diffusion 1.5나 증류된(distilled) 변형 모델처럼 더 작고 성능이 낮은 모델을 사용하는 것이었으나, 이는 컴팩트함(compacity)을 얻는 대신 품질의 급격한 저하를 감수해야 했습니다. Bonsai의 흥미로운 점은 모델을 축소하는 것이 아니라, 4B의 파라미터(parameters)와 FLUX.2 Klein 아키텍처를 그대로 유지하면서 공격적인 양자화(quantization)를 통해 컴팩트함을 얻었다는 것입니다.

로컬 AI 생태계 측면에서 이는 비용, 개인정보 보호, 지연 시간(latency) 문제로 인해 추론(inference)을 엣지(edge)로 이동시키려는 더 넓은 트렌드와 맞물려 있습니다. 모델이 휴대폰에서 실행되면 이미지 생성에 따른 비용이 발생하지 않고, 서버로 데이터가 전송되지 않으며, 연결도 필요하지 않습니다.

데이터와 수치: 얼마나 줄어들고 비용은 얼마인가

Bonsai Image 4B의 수치는 가장 강력한 근거입니다. 다음 표는 확산 트랜스포머 (diffusion transformer)의 크기와 세 가지 상호 보완적인 벤치마크를 통해 측정된 품질을 요약합니다: GenEval (객체 구성 및 속성 결합), HPSv3 (인간 선호도 및 미적 품질), 그리고 DPG-Bench (밀집 프롬프트 추종 및 의미론적 충실도).

모델	트랜스포머 (GB)	GenEval	HPSv3	DPG-Bench	감소율	상대적 품질
1-bit Bonsai Image 4B	0,93	0,67	11,15	0,82	8,3×	88%
Ternary Bonsai Image 4B	1,21	0,72	12,22	0,85	6,4×	95%
FLUX.2 Klein 4B	7,75	0,81	9,12	0,84	1×	100%
SDXL	5,14	0,30	0,10	0,50	1,5×	67%
Stable Diffusion 1.5	1,72	0,39	0,60	0,14	4,5×	51%
PixArt-Σ XL 2	1,20	0,54	1,19	0,76	6,4×	83%

결과는 명확합니다: 1.21 GB인 Ternary(삼진법) 변형 모델은 트랜스포머 크기를 6.4배 줄이면서도 기준 모델 품질의 95%를 유지합니다. 1-bit 변형 모델은 1GB 미만(0.93 GB, 8.3배 감소)으로 내려가면서도 88%의 품질을 제공하며, 이는 유사한 크기의 SDXL 또는 Stable Diffusion 1.5와 같은 기존 소형 모델들보다 훨씬 높은 수준입니다.

배포 페이로드 (payload)가 나머지 이야기를 들려줍니다. 압축된 텍스트 인코더 (text encoder)와 FP16 형식의 VAE를 포함할 때, Apple Silicon용 패키지 크기는 1-bit 변형의 경우 3.42 GB, Ternary 변형의 경우 3.88 GB입니다. 이는 전체 FLUX.2 Klein 4B의 15.97 GB와 대조적입니다. 또한 텍스트 인코더는 프롬프트를 인코딩한 후 메모리에서 내려가기 때문에, 실제 실행 중 평균 사용량은 훨씬 더 적습니다. 512x512 이미지를 생성할 때 평균 활성 메모리는 1.5 GB (binary) 및 1.96 GB (ternary)로, 원본 모델의 11.74 GB와 비교했을 때 각각 7.8배 및 6.0배 감소한 수치입니다.

📌 참고: 디스크 페이로드와 활성 메모리는 동일하지 않습니다. Bonsai는 프롬프트를 처리한 후 텍스트 인코더를 다운로드(unload)하므로, 디노이징 (denoising) 과정 중의 실제 점유율은 다운로드된 패키지 크기보다 훨씬 작습니다.

속도 측면에서, Bonsai Image 4B는 iPhone 17 Pro Max에서 512x512 이미지를 9.4초 만에 생성하며, Mac M4 Pro에서는 약 6초가 소요됩니다. 후자의 경우, 전체 정밀도 (full precision)를 사용하는 MFLUX 파이프라인보다 최대 5.6배 더 빠릅니다.

삼진 (ternary) 변형 모델은 크기는 훨씬 작으면서도 품질의 95%를 유지합니다.

LATAM 개발자를 위한 영향 및 분석

라틴 아메리카 (LATAM)에서 제품을 구축하는 이들에게 Bonsai Image 4B는 민감한 지점인 '비용'을 건드립니다. 클라우드에서 생성되는 각 이미지는 비용이 발생하며, 규모가 커질수록 이는 이미 좁은 마진에 부담을 줍니다. 사용자의 기기에서 실행되는 모델은 해당 연산을 사용자가 이미 비용을 지불한 하드웨어로 전가하므로, 이전에는 비용 문제로 불가능했던 기능을 모바일 앱이나 데스크톱 도구에서 실행 가능한 것으로 만들어 줍니다.

두 번째 지점은 연결성입니다. 로컬 추론 (local inference)은 안정적인 인터넷이 필요하지 않으며, 이는 대도시 이외의 지역에서 여전히 중요한 요소입니다. 세 번째는 개인정보 보호입니다. 이미지와 프롬프트 (prompts)가 절대 전화기를 벗어나지 않으므로, 데이터 규정 준수를 단순화할 수 있습니다.

배포 스택은 Apple Silicon이 탑재된 iPhone, iPad, Mac뿐만 아니라 CUDA GPU를 지원하며, Apple 하드웨어에서는 MLX의 저비트 (low-bit) 경로를, CUDA에서는 Gemlite의 저비트 GEMM 커널을 사용합니다. 정확한 도구는 릴리스 (release)에 따라 달라질 수 있으므로, 플랫폼별 환경 관점에서 생각하는 것이 좋습니다. 개념적인 수준에서 추론 환경 설치는 하드웨어에 따라 다르게 보입니다:

# macOS (Apple Silicon) — MLX 저비트 경로
pip install mlx mlx-lm
# 생성 시 통합 GPU에서 MLX의 저비트 커널을 사용합니다
...

⚠️ 주의: MLX는 Apple Silicon 전용입니다. NVIDIA가 탑재된 Windows 또는 Linux에서는 저비트 추론 경로가 MLX가 아닌 CUDA 기반의 Gemlite를 통해 이루어집니다. 파이프라인을 확정하기 전에 항상 릴리스 문서를 확인하십시오.

1-bit 변체와 ternary (삼진) 변체 사이에서 고민하는 팀을 위한 실용적인 규칙은 간단합니다. 지원하고자 하는 가장 낮은 사양의 기기에서 메모리 병목 현상이 발생한다면 1-bit를 선택하십시오. 만약 약간 더 높은 점유율을 감수할 수 있고 최상의 프롬프트 충실도 (prompt fidelity)를 원한다면, ternary가 최적의 지점입니다.

향후 과제

Bonsai Image 4B는 오픈 웨이트 (open weights)로 출시되어, 커뮤니티가 이를 기존 도구에 통합하고, 특정 도메인에 맞춰 미세 조정 (fine-tuning)하며, 공식 벤치마크보다 더 넓은 범위의 기기에서 동작을 측정할 수 있는 길을 열어주었습니다. 남겨진 과제는 이 접근 방식이 어디까지 확장될 수 있느냐 하는 것입니다. 만약 1-bit 및 ternary 양자화 (quantization)가 더 큰 모델이나 더 높은 해상도에서도 품질을 유지할 수 있다면, 우리는 처음부터 엣지 (edge) 디바이스를 위해 설계된 차세대 이미지 모델을 보게 될 수도 있습니다.

또한 툴링 (tooling) 생태계도 지켜봐야 합니다. 확산 모델 (diffusion)이 휴대폰에서 돌아가는 것과, 이를 앱으로 패키징하고 업데이트를 유지하며 디버깅하기 쉽게 만드는 것은 별개의 문제입니다. MLX와 Gemlite의 지원은 좋은 시작이지만, 도구의 성숙도가 이 기능이 실제 제품에 얼마나 빨리 등장할지를 결정할 것입니다.

📖 Telegram 요약: 요약 보기

자주 묻는 질문 (FAQ)

Bonsai Image 4B는 정확히 무엇인가요?

Bonsai Image 4B는 PrismML의 이미지 생성 모델 제품군으로, FLUX.2 Klein 4B에서 파생되었습니다. 확산 트랜스포머 (diffusion transformer)의 가중치를 1-bit (이진) 또는 ternary (삼진) 형태로 양자화합니다. 목표는 노트북이나 휴대폰과 같은 로컬 하드웨어에서 고품질의 확산 모델을 실행하는 것입니다.

1-bit 변체와 ternary 변체의 차이점은 무엇인가요?

1-bit는 {−1, +1} 가중치를 사용하며 (유효 비트 1.125 bits), 압축을 우선시합니다: 0.93 GB 용량, 8.3배 감소, 88%의 품질을 유지합니다. ternary는 {−1, 0, +1} 가중치를 사용하며 (유효 비트 1.71 bits), 용량은 1.21 GB, 6.4배 감소, 추가적인 zero state 덕분에 95%의 품질을 보존합니다.

정말로 iPhone에서 실행되나요?

네. PrismML에 따르면, 두 변형 모델 모두 iPhone 17 Pro Max에서 실행됩니다. 해당 기기에서는 전체 정밀도(full precision)의 FLUX.2 Klein 4B 모델이 메모리에 들어가지 않습니다. 이 장치에서 512x512 해상도의 이미지 하나를 생성하는 데 9.4초가 소요됩니다.

그렇게 많이 압축하면 품질이 많이 떨어지나요?

예상보다 적게 떨어집니다. Ternary(삼진) 변형 모델은 GenEval, HPSv3 및 DPG-Bench에서 원본 모델 품질의 95%를 유지하며, 1-bit 변형 모델은 88%를 유지합니다. 두 수치 모두 비슷한 크기의 전통적인 소형 모델들보다 훨씬 높습니다.

Apple 외에 어떤 하드웨어에서 사용할 수 있나요?

이 스택은 Apple Silicon (iPhone, iPad, Mac)의 MLX 경로뿐만 아니라, 저비트(low-bit) Gemlite 커널을 통한 NVIDIA CUDA GPU도 지원합니다. Windows에서는 WSL2와 CUDA를 사용하는 것이 가장 실용적입니다.

왜 확산 트랜스포머 (diffusion transformer)가 압축의 핵심 요소인가요?

이미지 하나당 수십 번씩, 매 디노이징 (denoising) 단계마다 실행되기 때문입니다. 이 모델의 크기가 메모리, 대역폭(bandwidth), 그리고 속도를 결정합니다. 크기를 7.75 GB에서 0.93 GB로 줄이는 것이 바로 이 모델을 휴대폰에 담을 수 있게 만드는 핵심입니다.