Gemma 4 31b를 재구축하여 26b로 더 좋게 만들기
요약
Gemma 4 31b 모델을 기반으로 SWA 레이어 재설계 및 Attention 기반 Residual Networks를 적용하여 26b 규모의 고성능 모델로 재구축하는 프로젝트를 소개합니다. 모델 크기를 줄이면서도 전역적 일관성과 긴 문맥 처리 능력을 향상시키는 것을 목표로 합니다.
핵심 포인트
- SWA(Sliding Window Attention) 레이어 구조 재설계 및 최적화
- Moonshot의 Attention based Residual Networks 기술 결합
- TopK 로짓을 활용한 모델 안정성 확보 및 재학습 기법 적용
- 30.81B에서 26.02B로 파라미터 축소 및 성능 개선 시도
음... 에라 모르겠다, 그냥 해보기로 했습니다. Gemma 4 31b를 재구축할 겁니다. 이 모델이 정말 마음에 들거든요. 그래서 현재 계획은 SWA (Sliding Window Attention) 레이어를 재구축하는 것입니다. 현재 어떤 SWA 레이어를 제거할지 결정하기 위해 모든 적절한 ablation (절제) 테스트를 수행하고 있습니다. Gemma는 각각 1024 토큰인 5개의 SWA를 실행합니다. 그 다음 "Block"을 위한 글로벌 레이어가 있습니다. Layer 3가 지속적으로 가장 약하게 나타나며 아마 제거될 가능성이 높습니다. 그 후, 전반적으로 SWA의 attention (어텐션)을 재조정할 것입니다. 새로운 SWA는 1024/2048/4096/8.1k 순서가 되고 그 다음에 글로벌 레이어가 올 것입니다. 이것이 Gemma가 사용하는 "Block"입니다. 그 다음에는 "Attention based Residual Networks"를 결합할 예정입니다. Moonshot에서 개발한 기술입니다. 연구 논문은 2026년 초였던 것으로 기억합니다. 이걸 작업하느라 거의 잠을 못 자서 논문 날짜가 틀렸을 수도 있습니다. 어쨌든, 네트워크의 글로벌 레이어들에 attention 기반 residual (잔차)을 적용하여 글로벌 레이어들이 정보를 더 잘 흐르게 할 것입니다. 이론적으로 이는 모델에 더 나은 global coherence (전역적 일관성)를 부여하고, 크기는 더 작으면서도 성능은 더 좋게 만듭니다. Google이 수백만 달러를 투자하는 완전한 IT / RL (강화학습) 파이프라인을 제가 가지고 있지 않다는 점을 고려하면... IT 베이스에서부터 작업해야 합니다. 그래서 초기 재구축을 위해, 31b 모델에서 topK 12개 또는 20개의 logits (로짓)을 가져와 모델의 상단과 하단을 freeze (동결)한 상태에서 재학습의 타겟으로 사용할 것입니다. 이렇게 하면 네트워크 내부가 31b와 유사한 더 작은 공간에서 안정성을 찾는 동안 tokenization (토큰화)/output (출력)/vocab (어휘집)이 변하지 않게 유지할 수 있습니다. TopK 재구축은 제가 다른 학습 과정에서 개발한 또 다른 독특한 기술입니다. 모델에게 다음 토큰이 무엇일지, 그리고 무엇이 인접해 있는지 등에 대해 훨씬 더 풍부한 이해를 가르치기 때문에 아주 멋진 기술입니다. 제가 이 방법을 발명한 것인지, 아니면 누군가 이미 내린 결론에 도달한 것인지는 모르겠습니다. 아마 둘 다일 것입니다. 마지막으로, 재구축을 위해 수십억 개의 토큰을 학습시킬 것입니다. 사용할 "좋은" 데이터셋을 찾아야 하거나... 아니면 말 그대로 데이터셋을 직접 구축해야 합니다. 실제 전체 재학습에는 비용이 들겠지만, 뭐 어쩌겠습니까.
그 벽에 부딪히면 그때 가서 생각하겠습니다. B300을 스팟 인스턴스 (spot price)로 빌려서 학습시키면 될 것 같거든요.
모델의 총 파라미터 (Total Parameters)는 약 30.81B에서 26.02B로 줄어들 것입니다.
이론적으로는 더 나아질 것입니다. 더 나은 긴 문맥 (long context) 처리 능력 등을 포함해서 말이죠.
만약 기부하고 싶은 좋은 데이터셋이나 컴퓨팅 자원 (compute) 등이 있다면... 연락 주세요 (hmu)... 만약 이 모든 것이 어떻게, 왜 작동하는지에 대해 질문이 있다면... 무엇이든 물어보세요. TQDM 진행 바를 멍하니 바라보는 것은 정신적 에너지가 많이 들지 않으니, 앉아서 답변해 드릴 수 있습니다.
곧 들어갈 혼수상태(잠)에서 깨어난 후에 답변하겠습니다. (8시간 이상 취침 예정)
이 프로젝트의 페이스트빈 (pastebin) 링크입니다 -- https://pastebin.com/GbVtJQJg
거의 전체 계획이 마크다운 (markdown) 형식으로 정리되어 있습니다. 시작부터 끝까지 말이죠. 이것은 어블리터레이티드 (abliterated) 코어에서부터 시작하는 것입니다. 저는 이 모델을 학습시킬 때 어떤 형태의 검열 (censorship)도 추가하고 싶은 마음이 전혀 없습니다. 만약 모델을 사용하다가 스스로를 다치게 한다면, 그것은 당신의 책임입니다. 저는 아마도 "사고" (thinking) 학습도 재구축할 예정인데, 이는 검열을 해제하는 것을 의미합니다. 사고 과정에서 모든 요청의 "안전성" (safety)에 대해 묻는 것을 중단하게 만드는 것이죠. 말처럼 쉽지는 않겠지만요. 여전히 작업 진행 중 (WIP)입니다.
submitted by /u/NineThreeTilNow
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기