공지: Gemma 4 업스케일링 시 비례적인 layer_scalar 조정이 필요합니다
요약
Gemma 4 모델 업스케일링 시 모델 성능 유지를 위해 layer_scalar 값을 비례적으로 조정해야 함을 설명합니다. 레이어 복제 횟수에 따라 곱셈 방식의 스칼라 값을 계산하는 공식을 제시합니다.
핵심 포인트
- Gemma 4 업스케일링 시 layer_scalar 조정 필수
- 조정하지 않을 경우 모델 성능 저하 발생
- 계산 공식: s^(1/N) 적용 필요
- RYS 관련 구현 코드 PR 제공
많은 분이 이 부분에 대해 혼란스러워하거나 의아해하는 것 같아 명확히 설명해 드리고자 합니다.
저는 RYS를 가지고 이것저것 시도해 보다가 모델이 망가진다는 사실을 깨달았습니다. 알고 보니 각 레이어(layer)에 적용되는 layer_scalar 값이 존재했습니다. 결과물인 모델이 "동일한 양"을 얻을 수 있도록 이 값을 조정하지 않으면 모델이 망가집니다. 이 값은 곱셈 방식이기 때문에, s^(1/N)을 계산해야 합니다. 여기서 s는 원래의 스칼라(scalar) 값이고, N은 해당 레이어를 복제한 횟수입니다.
참고를 위해 Vibe 코딩(Vibe coded)으로 작성하고 (닫힌) PR을 https://github.com/dnhkng/RYS/pull/4 에 올려두었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기