Google이 31B보다 큰 모델을 제공하지 않기에, Gemma4-31B를 44B(88개 레이어)로 확장했습니다
요약
Google의 Gemma4-31B 모델을 기반으로 레이어를 확장하여 44B 규모의 모델을 직접 구축한 사례를 공유합니다. LLaMA Pro 방식의 identity-init을 적용하여 레이어를 88개로 늘렸으며, 한국어 법률 및 STEM 데이터로 미세 조정하여 새로운 도메인 지식 수용 능력을 실험했습니다.
핵심 포인트
- Gemma4-31B를 88개 레이어(약 47B 파라미터)로 확장 구현
- LLaMA Pro 방식의 identity-init 및 layer_scalar 수정 적용
- 법률 및 STEM 데이터 미세 조정을 통한 새로운 도메인 용량 확보 시도
- 코딩 및 도구 호출(Tool-calling) 능력 향상을 위한 협업 및 피드백 요청
저는 그동안 이 스레드를 독자로서, 그리고 가끔 글을 올리는 작성자로서 지켜봐 왔습니다. 그래서 지난 주말 동안 작업해 온 내용을 드디어 공유할 때가 되었다고 생각했습니다.
Google은 31B보다 큰 Dense Gemma4를 출시하지 않았기에, 저는 직접 하나를 만들기로 결심했습니다. 다만 미리 말씀드리자면, 저는 컴퓨터 과학(CS)이나 수학 전공자가 아니며, 이 모든 과정은 제 개인 하드웨어에서 직접 부딪히며 시행착오를 거친 결과입니다. 만약 아래 내용 중 이론적으로 불확실한 부분이 있다면 꼭 알려주세요. 제가 어디서 틀렸는지 진심으로 배우고 싶습니다.
제가 한 작업: Gemma4-31B를 가져와 레이어를 60개에서 80개로 확장했습니다 (LLaMA Pro 방식을 따르는 identity-init 방식을 사용했으며, 찾아내는 데 너무 오래 걸렸던 Gemma4 전용 layer_scalar 수정 사항을 적용했습니다). 그 후 한국어 법률 및 STEM(과학·기술·공학·수학) 데이터로 미세 조정(Fine-tuning)을 진행했습니다. 마지막으로 베이스 모델이 아닌, 이미 미세 조정된 모델 위에서 두 번째 블록 복제 확장(80 → 88개 레이어, 약 47B 파라미터)을 수행했습니다.
저의 가설은 Gemma4의 Dense 아키텍처가 지식을 매우 압축적으로 담고 있어서, 기존 지식을 침범하지 않고 진정으로 새로운 도메인을 밀어넣기가 놀라울 정도로 어렵다는 것입니다. 레이어 확장 작업은 기본적으로 기존 가중치(Weights)와 공간을 두고 싸우기보다는, 새로운 도메인이 자리 잡을 수 있는 '빈 용량(empty capacity)'을 확보하려는 시도였습니다. 저의 법률/STEM 사용 사례에 대한 초기 결과는 유망해 보이지만, 아직 도구 호출(Tool calling)은 테스트하지 않았기에 그 부분에 대해서는 말씀드리기 어렵습니다.
아키텍처 세부 사항, identity-init 검증, 그리고 학습 검증(복제된 full-attention 레이어가 실제로 학습되었는지, 아니면 죽은 가중치로 남아있는지 확인 — 실제로 학습되었으며, sliding 레이어보다 더 많이 기여했습니다)을 포함한 전체 기술 보고서는 모델 카드에 있습니다:
🔗 https://huggingface.co/TOTORONG/extGemma4-44B
앞으로 이것을 더 협력적인 노력으로 발전시키고 싶습니다. 특히 현재 가장 취약한 두 부분인 코딩 능력과 도구 호출(Tool-calling) 분야에서 더욱 그렇습니다.
구체적으로, 다음과 같은 부분에서 도움을 받을 수 있을 것 같습니다 —
- 코딩 및 도구 사용/함수 호출 (function-calling)에 특화된 CoT (Chain-of-Thought) 데이터셋. 단순히 고정된 도구 세트를 암기하는 것이 아니라 일반화할 수 있는 데이터셋이면 이상적입니다.
- 이 모델의 도구 호출 (tool calling) 능력을 실제로 스트레스 테스트(stress-test)하고 결과를 공유해 주실 분. 제가 아직 직접 해보지 못했습니다.
- 88개 레이어에서 데이터/학습 품질에만 집중하는 것과, 이 확장(expansion)을 더 밀어붙이는 것(96~100개 레이어를 고려 중입니다) 중 어느 쪽이 더 가치 있는지에 대한 피드백.
- 만약 다른 밀집 구조 (dense architectures)에서 유사한 블록 복제 (block-duplication) 또는 레이어 삽입 (layer-insertion) 확장을 시도해 본 분이 계시다면, 무엇이 효과적이었고 무엇이 그렇지 않았는지에 대해 의견을 나누고 싶습니다.
다음 단계로, 저는 이와 동일한 접근 방식을 GLM-5.2 또는 DeepSeek V4-Flash에 적용해 보기를 희망합니다. MoE (Mixture-of-Experts) 구조는 완전히 다른 영역이므로, MoE 특화 확장(upcycling, 전문가 복제 (expert duplication), 라우팅 고려 사항 등 무엇이든)에 관한 논문, 자료, 또는 어렵게 얻은 지식들이 있다면 언제든 환영합니다.
submitted by /u/Desperate-Sir-5088 to r/LocalLLaMA
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기