로컬 기기용 1비트 Bonsai Image 4B 이미지 생성

20년 전에는 우리가 보거나 읽는 것이 진짜인지 신뢰할 수 없는 미래의 인터넷을 기대한 사람은 없었을 것 같음
언젠가는 이 시대를, Mad Men에서 Draper 가족이 피크닉 쓰레기를 잔디밭에 던져두고 떠나는 장면처럼 일탈적 시기로 돌아볼 수 있기를 바람

20년 전 선생님들은 인터넷은 아무것도 믿을 수 없으니 Wikipedia를 쓰지 말라고 했고, 앱이나 웹사이트에서 만난 사람과는 절대 데이트하지 말라고 했음. 그런 사람은 100% 살인자라고 했고, “인터넷은 포르노용”이라는 말도 있었음
시간이 지나며 좋아지는 일도 많고, 사람들은 새 기술이 처음 나올 때 사회적 위험을 늘 과대평가하는 편임

텍스트와 이미지에는 항상 허위 정보가 있었고, 사진은 사진술이 생긴 때부터 조작 가능했음
확실히 더 쉬워지고는 있지만 질적으로 완전히 달라진 변화는 아님. 20년 전 인터넷에서 본 것을 그대로 믿는 것도 지금만큼이나 우스운 일이었을 것임

비싼 구독 대신 하드웨어를 업그레이드해서 내 AI를 업그레이드하는 미래가 정말 기다려짐
하고 싶은 문제 중에는 수십억 토큰이 필요한 것들이 많은데, 지금은 기업 프로젝트 후원이 없으면 사실상 접근 불가능함. Opus 4.6 수준 품질로 초당 수만 토큰을 뽑아낼 수 있는 ASIC 생성 머신이면 충분함

Taalas라는 회사가 비슷한 걸 만들고 있음. Opus 4.6 품질은 아니지만 더 큰 모델을 목표로 하고 있을 것임
현재는 LLama 8B 모델을 쓰고, 초당 약 17k 토큰으로 동작하며 https://chatjimmy.ai/에서 테스트 가능함

그런 문제의 예를 하나 들어줄 수 있음?

하드웨어와 전력 비용이 구독 비용과 비교해 어느 정도일지 궁금함

논리적으로 보면 다섯 명이 자원을 모으는 쪽이 한 명보다 강하므로, 데이터센터가 항상 이김
시간 활용률이 더 높기 때문임. 나도 늘 같은 상상을 하지만, 논리적으로는 환상이라고 봄. 평균적으로 하드웨어를 더 잘 활용하는 집단 전체보다 더 많이 쓸 수는 없음
개인 하드웨어도 좋아지겠지만, 최첨단은 항상 클라우드에 있을 것임

“1-bit”를 보고 처음 떠올린 건 1비트 모델 가중치가 아니라 1비트 디더링 흑백 이미지 생성이었음
그래서 훈련 이미지와 작업 공간을 Floyd-Steinberg, Atkinson, 혹은 선호하는 알고리즘으로 디더링한 1비트 이미지로 제한하면 확산 이미지 생성기가 얼마나 멋지고 빠르고 압축될지 궁금해짐
학습은 꽤 빠를 것이고, 아마 최신 GPU 하나에도 들어갈 듯함

그래도 그레이스케일로 학습한 뒤 나중에 디더링하는 편이 더 나을 것 같음

나도 정확히 같은 생각을 했고, 여기서 탐구할 만한 멋진 아이디어가 꽤 있어 보임

진짜 궁금해서 묻는데, 이게 실제 문제를 해결하는 건가?
확산 모델을 쓸 때 병목은 저장 공간이나 메모리가 아니라 생성 시간이라고 봄. 많은 모델은 1080 세대 이후의 8~12GB GPU나 비슷한 메모리의 Mac에서 돌아가고, 어차피 GPU 성능 관점에서는 그 정도가 하한에 가까움. 게다가 이 모델들은 기반이 된 작은 FLUX.2 모델보다 약간 느린 것으로 보임
물론 iPhone처럼 비교적 강한 GPU가 있지만 메모리가 제한된 기기에서 로컬 모델을 돌릴 수 있게 해줄 수는 있겠지만, 그게 정말 흔한 요구사항인가?

유용한 진전임. 로컬 규모 추론으로 그럭저럭 괜찮은 품질이 나오면, 비용 걱정 없이 자주 버려도 되는 이미지를 생성하는 제품을 만들 수 있음
지금까지 본 이미지 생성 제품은 모두 사용량 과금이라 가치가 크게 제한됨. 다만 이게 실제로 “괜찮은 품질” 지점에 도달했는지는 모르겠음

지금은 GPU 수요가 극단적으로 높고 공급은 제한된 시대임. 추론을 엣지로 밀어낼 때마다 클라우드 자원이 다른 작업에 비게 됨
효율이 좋아질 때마다 기존 자원으로 할 수 있는 일이 늘어남. 이미지를 절반의 연산량으로 렌더링할 수 있다면 GPU도 절반만 필요함

8~12GB 1080 세대 GPU나 비슷한 메모리의 Mac은 하한이 아님. 대부분은 그보다 GPU 성능이 훨씬 낮은 노트북이나 모바일 기기를 씀

현재 가치는 실사용보다는 학술적 가치에 더 가까워 보임
최전선 모델도 아직 간신히 쓸 만한 수준이고, 이미지 생성에서는 최고 모델조차 대부분 형편없는 결과가 많음. 그래서 능력 면에서 최전선보다 훨씬 뒤처질 수밖에 없는 작은 1비트 모델은 당장 쓰기 어렵다고 봄
하지만 연산 단위당 능력 밀도를 크게 높이는 건 큰 의미가 있음. 최전선 모델을 더 좋고 싸게 운영하고 자원 소모를 줄일 수 있으며, 개인 노트북이나 휴대폰 같은 엣지에서 수행 가능한 작업 범위도 넓어짐
개인정보 관점에서도 기기 내에서 돌아가야 할 작업이 많고, 모두가 큰 전용 GPU를 갖고 있지는 않음

맞음. 크기와 성능은 로컬 LLM만의 문제가 아니라 OpenAI와 Anthropic 같은 최전선 LLM 회사에도 문제임
Anthropic 같은 회사는 아직도 추론에서 막대한 손실을 보고 있고, 효율적이면서 성능 좋은 모델의 발전은 수익성에 도움이 됨

“우리가 알기로 Bonsai Image 4B는 해당 매개변수 규모에서 iPhone에서 직접 실행되는 첫 이미지 모델”이라는 문장은 틀렸음. 다만 완전히 틀리지는 않게 조심스럽게 표현했음
FLUX.2 [klein] 4B, 즉 같은 매개변수 규모이자 사실상 같은 모델이 Draw Things 앱을 통해 iPhone에서 돌아감. 8비트나 6비트 양자화를 쓰므로 “직접”은 아니라고 할 수 있겠지만, 그 기술적 단서가 꽤 수상하게 들림

확산 모델이라고 부르지만, 기반인 Flux.2는 정류 흐름 모델임

개인적으로는 “확산”을 이 계열 전체를 가리키는 말로 써도 괜찮다고 봄

이상함. 영국 방문자인데 이렇게 뜸:
Website Not Allowed
“prismml.com” is a restricted website.

하루 안에 누군가 이 1비트 모델용 LoRA를 학습시켜 Apple Watch에서 헨타이 콘텐츠를 생성하게 만들 것임

로컬 기기용 1비트 Bonsai Image 4B 이미지 생성

요약

핵심 포인트

댓글