Gemma 4 12B에서 제일 볼만한 건 로컬 실행 기준이 꽤 현실적으로 내려왔다는 점임.

구글은 16GB VRAM/통합 메모리 노트북에서도 돌릴 수 있다고 잡고 있음.

거기에 이미지·오디오 입력까지 별도 encoder 없이 LLM backbone에 바로 붙이는 구조를 넣음.

Ollama, LM Studio, llama.cpp, MLX, vLLM 같은 생태계 지원까지 붙으면 그냥 모델 공개가 아니라 로컬 agent 개발 스택을 밀겠다는 의지가 보임.

앞으로 온디바이스 AI는 채팅봇보다 “내 노트북에서 보고 듣고 실행하는 작은 에이전트” 쪽이 더 중요해질 듯.

LLM만 보면 AI의 다음 판을 놓칠 수 있음.

ImageNet으로 컴퓨터비전 딥러닝 시대를 여는 데 큰 역할을 했던 Fei-Fei Li가, 이번엔 world model을 들고 나옴.

ImageNet이 시각 AI의 전환점이었다면, Transformer는 텍스트 AI의 전환점이었음.

근데 실제 세계는 텍스트만으로 굴러가지 않음.

물체가

Insights