Google이 오픈소스 AI 서사에 캐주얼하게 균열을 일으키다

지난주, Google은 다른 어떤 빅테크 기업도 감히 시도하지 못했던 일을 해냈습니다. 그들은 Apache 2.0 라이선스 하에 진정으로 자유롭고 오픈소스인 대규모 언어 모델(LLM)을 출시했습니다.

이것은 단순히 '오픈한 듯한' 것이 아니라, 완전한 자유를 의미합니다. 연구용만 가능하거나, 돈을 벌면 고소당할까 봐 걱정해야 하는 그런 수준이 아닙니다. 그 모델의 이름은 Gemma 4이며, 처음 제 생각은 '아, 정말 또 데이터 센터급 GPU가 있어야 돌릴 수 있는 반쯤 완성된 오픈 모델이군'이었습니다. 하지만 Gemma 4의 가장 놀라운 점은 그것이 작다는 것입니다. 의심스러울 정도로 작습니다.

큰 모델은 일반 소비자용 GPU에서 실행할 수 있을 만큼 작고, 에지(edge) 모델은 스마트폰이나 Raspberry Pi 같은 기기에서도 실행할 수 있을 만큼 작은데도 불구하고, 일반적으로 데이터 센터급 GPU가 있어야만 구동 가능한 다른 오픈 모델들과 동등한 지능 수준을 보여줍니다. 이것은 불가능해야 합니다.

오늘 영상에서는 이것이 어떻게 작동하는지 알아보고, Google이 개발한 몇 가지 다른 놀라운 압축 기술들을 살펴보겠습니다. 지금은 2026년 4월 8일이며, 여러분은 The Code Report를 시청하고 있습니다. 공정하게 말하자면, 이 분야의 여러 기업들이 오픈 가중치(open weight) 모델을 출시했습니다. 예를 들어 Meta의 Llama 모델은 준-자유롭고 오픈되어 있지만, Meta가 실제로 돈을 벌기 시작하는 모든 개발자에게 레버리지를 부여하는 특별 라이선스 하에 있습니다. 그다음에는 OpenAI의 GPT-OSS 모델이 있는데, 이 역시 Apache 2.0 라이선스를 받았지만 Gemma보다 크고 지능이 떨어집니다.

그 외에는 주로 Mistral이나 Qwen, GLM, Kimmi, DeepSeek 같은 중국 모델들에 의존하고 있습니다. 하지만 Gemma 4는 미국에서 만들어졌고, Apache 2.0 라이선스이며, 지능적이고, 가장 중요하게도 작다는 점에서 다릅니다. 비교하자면, Gemma 4의 310억 개 매개변수(parameter) 버전은 Kimmi K 2.5와 같은 모델들과 비슷한 수준을 기록하고 있습니다. 하지만 여기서 터무니없는 부분이 있습니다.

저는 단 20GB의 다운로드만으로 Gemma 4를 로컬에서 실행할 수 있으며, 단일 RTX 4090에서 초당 약 10개의 토큰 (tokens per second)을 생성합니다. 하지만 만약 Kimmi K 2.5를 실행하고 싶다면, 600GB 이상의 다운로드, 최소 256GB의 RAM, 공격적인 양자화 (quantization), 그리고 이를 구동하기 위해서만 최소 여러 대의 H100이 필요할 것입니다. Kimmi가 여전히 Gemma보다 더 나은 모델일까요? 하지만 제가 그것을 로컬에서 실행할 가능성은 전혀 없습니다. 따라서 당연한 질문은 Google이 어떻게 이런 믿기지 않는 압축을 달성했느냐는 것입니다. 그 답은 그들이 단순히 모델을 줄인 것이 아니라는 점에 있습니다. 그들은 AI의 진정한 병목 현상 (bottleneck)인 메모리 (memory)를 공략했습니다. 거대한 대규모 언어 모델 (large language model)을 로컬에서 실행하려면 더 좋은 CPU가 필요한 것이 아닙니다. 더 많은 메모리 대역폭 (memory bandwidth)이 필요합니다. 모델이 토큰을 생성할 때마다, GPU의 비디오 랜덤 액세스 메모리 (VRAM)에 있는 방대한 양의 모델 가중치 (model weights)를 읽어야 합니다. 모델의 크기가 얼마나 큰지는 사실 중요하지 않습니다. 그것을 읽어오는 데 비용이 얼마나 드느냐가 더 중요합니다. 그리고 여기서 흥미로운 점이 나타나는데, Google은 Gemma 4와 함께 Turboquant라고 불리는 것에 대한 연구 노트를 조용히 발표했습니다. 이는 마케팅 용어처럼 들리지만, 실제로는 상당히 놀라운 기술입니다. 이는 모델 가중치를 압축하여 공간을 적게 차지하도록 만드는 과정인 양자화 (quantization)에 대한 새로운 접근 방식입니다. 보통 이 과정을 거치면 모델은 작아지지만 성능은 저하되는 단순한 트레이드오프 (tradeoff)가 발생합니다. 하지만 Turboquant는 두 단계를 통해 이 트레이드오프를 개선합니다. 첫째, 보통 XYZ 데카르트 좌표계 (Cartesian coordinate system)에 있는 데이터를 반지름과 각도를 포함하는 극좌표 (polar coordinates)로 압축합니다. 이 각도들은 예측 가능한 패턴을 따르기 때문에, 모델은 전형적인 정규화 (normalization) 단계를 건너뛰고 정보를 더 효율적으로 저장할 수 있으며, 이를 통해 메모리 오버헤드 (memory overhead)를 줄일 수 있습니다. 그다음, Johnson-Lindenstrauss 변환 (transform)이라는 수학적 기법을 사용하여 고차원 데이터를 데이터 포인트 간의 거리는 유지하면서 단일 부호 비트 (single sign bits), 즉 양수 1 또는 음수 -1로 압축하여 축소합니다.

솔직히 말해서, 저는 수학이 실제로 어떻게 작동하는지 이해하기에는 너무 머리가 나쁩니다. 하지만 Turboquant가 실제로 Gemma 4 소형 모델들의 비밀은 아닙니다. Gemma 4 모델 중 일부는 E2B나 E4B처럼 모델 이름에 'E'가 붙어 있다는 점을 눈치채셨을 겁니다. 여기서 E는 유효 파라미터 (effective parameters)를 의미하는데, 이는 이 모델들이 레이어별 임베딩 (per-layer embeddings)이라 불리는 기술을 통합했기 때문입니다. 이는 신경망 (neural network)의 모든 레이어에 각 토큰(token)을 위한 자신만의 미니 치트 시트를 제공하는 것과 같습니다. 일반적인 트랜스포머 (transformer)에서는 각 토큰이 시작 시점에 하나의 임베딩을 할당받으며, 모델은 그 정보를 모든 레이어를 통해 전달해야 합니다. 그리고 그 정보의 대부분은 필요하지 않습니다. 레이어별 임베딩 (per-layer embeddings)은 각 레이어에 토큰의 작고 맞춤화된 버전을 제공함으로써 이를 변화시킵니다. 따라서 정보가 한꺼번에 주어지는 대신, 정확히 유용할 때 도입될 수 있습니다. 더 자세히 파고들고 싶다면 제가 설명란에 링크를 남겨둘 Martin Groothuis의 놀라운 시각적 가이드가 있습니다. 그 결과물은 작고, 똑똑하며, 효율적인 모델입니다. 저는 여기서 제 RTX 4090에서 Ollama를 통해 이를 실행하고 있는데, 저의 첫인상은 탄탄한 올라운드 모델이라는 것이며, Unsloth와 같은 도구를 사용하여 여러분의 데이터로 미세 조정 (fine-tuning)하기에도 훌륭한 모델이 될 것입니다. 하지만 여러분이 프로그래머라면, 오늘 영상의 스폰서인 Code Rabbit과 같은 고성능 코딩 도구를 대체하기에는 여전히 부족합니다. 그들은 방금 에이전트가 작성한 모든 코드를 검토한 다음, 발견된 버그를 어떻게 수정해야 하는지 정확히 알려주는 CLI 업데이트를 출시했습니다. 새로운 --agent 플래그를 통해 이를 활성화할 수 있으며, 이를 통해 Code Rabbit을 에이전트가 직접 호출할 수 있는 도구로 바꿀 수 있습니다. 거기서부터 Code Rabbit은 모든 문제점과 수정 방법에 대한 지침이 포함된 구조화된 JSON을 에이전트에게 제공하므로, 에이전트는 풀 리퀘스트 (pull request)를 열기 전에 돌아가서 모든 것을 정리할 수 있습니다. 또한 설정 프로세스를 간소화하고 속도 제한 (rate limits)을 제거하여, 단 하나의 터미널 명령어로 시작할 수 있으며 에이전트가 필요로 하는 만큼 많은 검토를 실행할 수 있습니다.

오늘 바로 CodeRabbit 로그인 명령어를 사용하여 무료로 체험해 보시고, 어떤 오픈소스 프로젝트에서도 영구적으로 무료로 사용해 보세요. 지금까지 The Code Report였습니다. 시청해 주셔서 감사합니다. 다음 영상에서 뵙겠습니다.

Google이 오픈소스 AI 서사에 캐주얼하게 균열을 일으키다

요약

핵심 포인트

댓글