1비트 및 터너리 Bonsai Image 4B 소개: 로컬 장치용 이미지 생성

오늘 저희는 Bonsai Image 4B를 출시합니다. 이 모델은 노트북부터 휴대폰에 이르기까지 로컬 하드웨어에서 고품질 디퓨전 추론(diffusion inference)을 실행하도록 설계된 소형 이미지 생성 모델군입니다.

Bonsai Image 4B는 두 가지 변형으로 제공됩니다:

1-bit Bonsai Image 4B: 이진수 {−1, +1} 트랜스포머 가중치와 FP16 그룹별 스케일링 계수를 사용하여, 가중치당 1.125의 유효 비트를 제공합니다. 이는 최대 압축을 목표로 하며, 메모리 제약, 대역폭(bandwidth), 배포 환경 면적이 주요 제약 사항인 경우 적합합니다.
Ternary Bonsai Image 4B: 삼진수 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹별 스케일링 계수를 사용하여, 가중치당 1.71의 유효 비트를 제공합니다. 추가된 제로(zero) 상태는 모델에 더 많은 표현적 유연성(representational flexibility)을 부여하여 시각적 품질과 프롬프트 충실도(prompt fidelity)를 향상시키면서도 극도로 작게 유지됩니다.

그 결과, 이미지 생성 분야의 새로운 배포 환경이 탄생했습니다. 즉, 뛰어난 출력 성능, 오픈 가중치(open weights), 그리고 이전에 이러한 클래스의 모델에게는 접근하기 어려웠던 장치에서의 실용적인 로컬 추론이 가능해졌습니다. 저희가 아는 한, Bonsai Image 4B는 해당 파라미터 클래스에서 아이폰(iPhone)에 직접 실행되는 최초의 이미지 모델입니다.

로컬 생성을 위해 구축되다

로컬 이미지 생성은 근본적인 제약 조건에서 시작합니다. 즉, 모델이 장치의 메모리 예산 내에 들어맞아야 한다는 것입니다.

4B급 이미지 모델의 경우, 디퓨전 트랜스포머가 모델의 가장 큰 부분을 차지하며, 생성 과정 동안 반복적으로 실행되는 부분입니다. 각 노이즈 제거 단계(denoising step)마다 트랜스포머가 다시 호출되므로, 트랜스포머 크기는 메모리 압력, 대역폭 요구 사항, 로컬 추론 속도에 직접적인 영향을 미칩니다.

Bonsai Image 4B는 FLUX.2 Klein 4B를 기반으로 구축되었습니다. 아키텍처 자체는 유지하되, 트랜스포머 가중치가 표현되는 방식을 변경했습니다. 이 가중치들을 이진수 및 삼진수 형태로 변환함으로써, Bonsai는 로컬 배포에 가장 중요한 이미지 파이프라인의 부분을 줄였습니다.

표 I: 모델별 디퓨전 트랜스포머 메모리 사용량(footprint).

이진 레이어 (binary layers)는 전체 정밀도 (full-precision) 트랜스포머 가중치 대비 약 14배의 감소를 제공합니다. 프로젝션 레이어 (projection layers)라고 불리는 정밀도에 민감한 소수의 지원 텐서 (~5%)는 FP16으로 유지되므로, 최종 1비트 Bonsai Image 4B 트랜스포머는 0.93 GB입니다. 이는 7.75 GB인 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배 감소한 수치입니다.

터너리 (ternary) 변형 모델도 동일한 구조를 따릅니다. 이 모델의 터너리 레이어는 약 10배의 감소를 제공하며, 최종 Ternary Bonsai Image 4B 트랜스포머는 1.21 GB로, 전체 정밀도 트랜스포머 대비 6.4배 감소했습니다. 이는 1비트 모델보다 약간 더 크지만, 추가된 제로 상태 (zero state)가 시각적 품질과 프롬프트 충실도 (prompt fidelity)를 향상시킵니다.

압축된 텍스트 인코더 (text encoder)와 FP16 VAE를 포함하면, Apple Silicon 배포 페이로드 (deployment payload)는 1비트 Bonsai Image 4B의 경우 3.42 GB, Ternary Bonsai Image 4B의 경우 3.88 GB입니다. 비교를 위해, 전체 정밀도 FLUX.2 Klein 4B는 15.97 GB의 배포 페이로드를 필요로 합니다. 런타임 (runtime) 시에는 프롬프트 인코딩 후 텍스트 인코더가 오프로드 (offloaded)되므로, 평균 메모리 사용량은 전체 페이로드보다 작습니다. 512x512 이미지를 생성할 때, 이진 모델과 터너리 모델의 평균 활성 메모리 (mean-active memory)는 각각 1.5 GB와 1.96 GB이며, 이는 기존 FLUX.2 Klein 4B의 11.74 GB와 비교했을 때 각각 7.8배 및 6.0배 감소한 수치입니다. 1024x1024 이미지의 경우, 이진 모델과 터너리 모델의 평균 활성 메모리는 각각 1.95 GB와 2.38 GB로, 기존 FLUX.2 Klein 4B의 14.39 GB와 비교했을 때 각각 7.4배 및 6.0배 감소한 수치입니다.

이러한 메모리 사용량 (memory footprint)의 감소는 모델이 구동될 수 있는 환경을 변화시킵니다. 당사의 배포 스택은 Apple Silicon iPhone, iPad, Mac 및 CUDA GPU를 지원하며, Apple 하드웨어에서는 MLX 저비트 경로 (low-bit paths)를 사용하고 CUDA에서는 Gemlite 저비트 GEMM 커널을 사용합니다. iPhone 17 Pro Max에서 전체 정밀도 FLUX.2 Klein 4B 파이프라인은 기기 메모리 예산 내에 들어가지 않지만, 두 가지 Bonsai Image 변형 모델은 온디바이스 (on-device)에서 실행됩니다.

비디오 I: Bonsai Studio에서의 이미지 생성

실제로 Bonsai Image 4B는 iPhone 17 Pro Max에서 512x512 이미지를 생성하는 데 9.4초가 소요되며, Mac M4 Pro에서는 약 6초가 소요됩니다. Mac M4 Pro에서 Bonsai Image 4B는 기본 풀 프리시전 (full-precision) MFLUX 파이프라인보다 최대 5.6배 더 빠릅니다.

성능 벤치마킹 (Benchmarking performance)

압축은 모델이 유용성을 유지할 때만 의미가 있습니다. 우리는 세 가지 상호 보완적인 벤치마크를 통해 Bonsai Image 4B를 평가했습니다: 객체 구성 (object composition) 및 속성 결합 (attribute binding)을 위한 GenEval; 인간 선호도 (human preference) 및 미적 품질 (aesthetic quality)을 위한 HPSv3; 그리고 밀집 프롬프트 준수 (dense prompt following) 및 의미론적 충실도 (semantic faithfulness)를 위한 DPG-Bench입니다.

표 II: Ternary Bonsai Image 4B 및 기타 모델 간의 이미지 품질 벤치마크 비교.

Ternary Bonsai Image 4B는 품질 지향형 변형 모델입니다. 1.21 GB 크기에서 GenEval, HPSv3, DPG-Bench 전반에 걸쳐 FLUX.2 Klein 4B 정확도의 95%를 유지하면서, 디퓨전 트랜스포머 (diffusion transformer)의 점유 공간을 6.4배 줄였습니다.

1-bit Bonsai Image 4B는 점유 공간 지향형 변형 모델입니다. 이는 디퓨전 트랜스포머를 1 GB 미만으로 낮추어 8.3배의 감소를 가져오면서도, 동일한 세 가지 평가 항목에서 여전히 강력한 벤치마크 점수를 제공합니다 (FLUX.2 Klein 4B 정확도의 88%를 유지합니다).

이 두 변형 모델은 품질-점유 공간의 경계(quality–footprint frontier)를 이동시킵니다. Bonsai Image는 현대적인 4B급 이미지 모델들의 디퓨전 트랜스포머 점유 공간을 아주 일부만 사용하면서도 경쟁력을 유지합니다. 동시에, 유사한 메모리 점유 공간을 가진 더 작은 모델들을 실질적으로 능가합니다. 이는 우리가 이전 Bonsai 언어 모델에서 확인했던 것과 동일한 파레토 이동 (Pareto shift)입니다. Bonsai Image는 현대적인 디퓨전 트랜스포머의 동작을, 이전에는 훨씬 더 작고 성능이 낮은 모델들의 영역이었던 메모리 범위 내로 가져옵니다.

이것이 중요한 이유

이미지 생성은 모델 품질의 문제일 뿐만 아니라, 배포 (deployment)의 문제이기도 합니다.

Cloud APIs는 많은 제품에 있어 계속해서 올바른 선택이 될 것입니다. 하지만 클라우드 전용 생성 방식은 특정 제품 제약을 수반합니다. 모든 프롬프트(prompt)가 원격 요청이 되고, 모든 반복 작업이 미미한 서빙 비용(serving cost)을 발생시키며, 모든 상호작용이 왕복 지연 시간(round-trip latency)을 추가합니다.

이미지 생성은 본질적으로 반복적이기 때문에 이는 중요한 문제입니다. 사용자들은 단 하나의 이미지에서 멈추는 경우가 드뭅니다. 프롬프트를 수정하고, 결과물을 비교하며, 변형(variation)을 생성하고, 실패한 결과물을 버리고 다시 시도합니다. 각 시도가 서버 측 작업이 될 때, 창의적인 루프(creative loop)는 사용자가 측정하고 기다려야 하는 무언가가 되어버립니다.

로컬 추론(Local inference)은 이를 변화시킵니다. 모델이 장치에 적합해지면, 생성 기능이 제품 경험 내부에 직접 자리 잡을 수 있습니다. 실행 비용은 더 저렴해지고, 반복 작업은 더 빨라지며, 프롬프트와 생성된 자산(assets)이 비공개로 유지되어야 하는 환경에서 사용하기가 더 쉬워집니다.

Bonsai Image 4B는 이러한 배포 체제(deployment regime)를 향한 한 단계입니다. 사용자가 이미 소유하고 있는 하드웨어에서, 사용자에게 더 가까운 곳에서 실행되는 역량 있는 이미지 생성을 제공합니다.

가용성 (Availability)

1비트(1-bit) 및 터너리(Ternary) Bonsai Image 4B는 모두 Apache 2.0 라이선스 하에 오픈 웨이트(open weights)와 코드로 출시될 예정입니다.

이번 출시와 함께, iPhone에서 Bonsai Image 4B를 직접 체험해 볼 수 있는 iOS 앱인 Bonsai Studio도 함께 출시합니다.

함께하세요 (Join Us)

PrismML은 Caltech 연구진 팀에서 시작되었으며, Khosla Ventures, Cerberus 및 Google의 지원을 받아 설립되었습니다. 우리는 신경망(neural networks)의 추론 능력을 희생하지 않으면서 압축하는 기술이라는, 이 분야에서 가장 어려운 문제 중 하나를 해결하기 위해 수년간 노력해 왔습니다.

차세대 최첨단(state-of-the-art) AI 구축을 돕고 싶다면, 여러분의 연락을 기다립니다. 저희 채용 페이지를 확인해 주세요.

Insights

1비트 및 터너리(Ternary) Bonsai Image 4B 출시: 로컬 장치용 이미지 생성 모델

요약

핵심 포인트

1비트 및 터너리 Bonsai Image 4B 소개: 로컬 장치용 이미지 생성

로컬 생성을 위해 구축되다

성능 벤치마킹 (Benchmarking performance)

이것이 중요한 이유

가용성 (Availability)

함께하세요 (Join Us)

댓글

AI 에이전트 프레임워크: LangGraph vs CrewAI vs AutoGen

상태 유지 AI 에이전트 (Stateful AI Agents): 메모리 아키텍처 및 응용 분야

기업 고객 서비스를 위한 효과적인 AI 챗봇 구축하기

AI 프로젝트가 실패하는 이유: 기업 도입의 인간적 측면

상태 유지 AI 에이전트 (Stateful AI Agents): 메모리 아키텍처 및 응용 분야

기업 고객 서비스를 위한 효과적인 AI 챗봇 구축하기

AI 프로젝트가 실패하는 이유: 기업 도입의 인간적 측면