영감을 받은 포스트: Google이 더 큰 Dense 버전을 출시하지 않아 Gemma 4 31B를 44B 모델(88 레이어)로 확장했습니다
요약
사용자가 Google의 Gemma 4 31B 모델을 기반으로 레이어 스케일링 기법을 적용하여 44B 규모의 모델로 확장하는 실험을 진행했습니다. LLaMA Pro 방식에서 영감을 얻어 60개 레이어를 88개로 늘려 모델의 용량을 확보했습니다.
핵심 포인트
- Gemma 4 31B 모델을 44B 파라미터 규모로 확장 시도
- LLaMA Pro 방식에서 영감을 받은 레이어 스케일링 전략 사용
- 베이스 모델의 지식과 구조적 패턴을 활용한 레이어 초기화
- 모델의 정체성을 유지하면서 추가적인 용량 확보 확인
Google이 Gemma 4 31B보다 큰 모델을 출시하지 않았기 때문에, 제가 직접 규모를 키울 수 있는지 확인해보고 싶었습니다. 이것은 내부 정보나 고급 ML (Machine Learning) 전문 지식에 기반한 것이 아니라, 그저 느낌과 Claude 구독 서비스 덕분에 가능했습니다.
제가 한 작업:
- 원본 Gemma 4 31B (60 레이어)에서 시작하여, 88 레이어로 확장함으로써 44B 파라미터 모델을 생성했습니다 (일종의 형태이며, 진정한 44B 모델이라고 부르기는 어려울 수 있습니다).
- LLaMA Pro 방식에서 영감을 받은 Gemma 전용 레이어 스케일링 (layer scaling) 전략을 사용했습니다.
- 다음과 같은 방식을 사용하여 새로운 레이어를 초기화했습니다:
- 베이스 모델의 지식, 학습 과정에서 습득한 일부 구조적 패턴
초기 결과:
- 확장된 모델은 추가적인 용량을 확보하면서도 원본 모델의 정체성을 상당 부분 유지하는 것으로 보입니다. 하지만 컨텍스트 (context)가 쌓였을 때 어떻게 동작하는지 확인해보고 싶습니다.
- 그리고 네, 그래프는 Claude를 통해 생성된 AI 생성 이미지입니다.
submitted by /u/Mr-serial_killer
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기