새로 삽입된 레이어가 Gemma4를 망치는 이유

제 영어 실력이 부족하여, OPUS 4.8이 아래 글을 작성했습니다.
관심을 가져주셔서 감사합니다. 저는 Gemma4-31B를 대상으로 진행한 레이어 확장 (layer-expansion) 실험의 벤치마크 결과를 공유하고자 합니다. 그 결과가 identity-init 레이어 삽입 (identity-initialized layer insertion)을 시도하려는 다른 분들에게 유용한 (비록 부정적일지라도) 데이터 포인트가 될 것이기 때문입니다.

설정 (Setup)

solon_v5: Gemma4-31B (60개 레이어), 당사의 데이터셋 (한국어 법률 + STEM)으로 미세 조정 (fine-tuned).
Gemma4-44B: 동일한 60개 레이어 베이스를 identity-initialized layer insertion (LLaMA-Pro 스타일)을 통해 88개 레이어로 확장한 후, 동일한 데이터셋으로 총 4 에포크 (epochs) 동안 미세 조정.

따라서 두 모델 사이의 유일한 변수는 레이어 확장 그 자체입니다. 그 외의 모든 것 — 데이터, 도메인, 훈련 파이프라인 — 은 axolotl을 사용했습니다.

GPQA-Diamond 결과
우리는 두 가지 프롬프팅 조건, 즉 제한 없는 CoT ("full-CoT")와 강제된 짧은 CoT (답변 전 최대 3문장, "short-CoT") 하에서 동일한 0-shot CoT 설정으로 두 모델을 평가했습니다.

모델	조건	strict-match
Gemma4-44B (88L)	full-CoT	0.571
Gemma4-44B (88L)	short-CoT (≤3 sentences)	0.606
solon_v5 (60L)	short-CoT (≤3 sentences)	0.727
solon_v5 (60L)	full-CoT	측정되지 않음

(solon을 full-CoT로 실행하지는 않았지만, 예상 점수는 거의 0.75입니다.)

두 가지 사항이 눈에 띕니다:

44B 모델 자체의 경우, short-CoT가 full-CoT보다 우세합니다 (0.606 대 0.571). 추론 체인 (reasoning chains)을 더 짧게 강제하는 것이 확장된 모델에게 실제로 도움이 됩니다.
최상의 조건에서도 44B 모델은 여전히 solon_v5보다 약 12포인트 뒤처져 있으며 (0.606 대 0.727), 그 격차는 양측의 표준 오차 (stderr, 각각 약 ±0.03, 대략 2.6σ) 범위를 훨씬 벗어납니다.

더 많은 레이어, 동일한 데이터, 더 낮은 점수, 그리고 추론을 짧게 끊었을 때 더 좋아지는 모델. 이러한 패턴 때문에 우리는 삽입된 레이어들을 직접 조사하게 되었습니다.

모델 내부에서 발견한 것
우리는 새로 삽입된 28개의 각 레이어가 순수한 identity 함수 (input ≈ output)에 얼마나 가까운지, 아니면 잔차 스트림 (residual stream)에 실제로 얼마나 기여하는지를 레이어별로 측정했습니다.

삽입된 레이어들에 대해 평균화한 결과:

레이어 입력과 출력 간의 코사인 유사도(Cosine similarity): 0.967 (1.0 = 완벽한 항등성, 즉 아무것도 하지 않음)
잔차 스트림(residual stream)에 대한 상대적 기여도: 삽입 위치에 따라 원래 레이어가 기여하는 양의 ~10–21%

두 번째 확장 단계(블록 복제)에서 나온 8개 레이어가 가장 극단적인 사례였습니다. 코사인 유사도는 0.995였고, 기여도 노름은 원래 레이어의 약 **32%**에 달했습니다. 비교하자면, 모델의 원래 60개 레이어는 평균 코사인 유사도가 0.941을 기록합니다. 따라서 삽입된 레이어들은 자신이 추가적인 용량을 더해야 하는 레이어들보다 '아무것도 하지 않는' 상태에 훨씬 가깝게 머물러 있습니다. 28개의 삽입된 레이어 중 의미 있게 다른 행동을 보인 것은 단지 2~3개였고, 나머지는 기본적으로 패스스루(pass-through)였습니다.

이것이 발생하는 이유
항등성 초기화(Identity initialization)는 의도적인 것입니다. 이는 모델의 기존 동작을 손상시키지 않으면서 새로운 레이어를 삽입할 수 있게 해줍니다. 하지만 이것은 특정한 문제를 야기합니다. 만약 새 레이어가 f(x) = x로 시작하고, 원래 레이어들(잔차 단축 경로, residual shortcut)이 이미 필요한 수준까지 손실을 낮출 수 있다면, 새로운 레이어를 항등성에서 멀리 밀어내는 기울기 신호(gradient signal)가 매우 적습니다. 이는 문헌에서 때때로 기울기 기아 현상(gradient starvation)이라고 불리는 것과 유사합니다. 즉, 단축 경로가 손실 감소를 흡수해버려서 새로 추가된 경로가 활성화되도록 강제하는 것이 아무것도 없는 것입니다.

이는 우리가 관찰한 내용과 일치합니다. 스택의 중간에 있는 레이어들(원래 잔차 경로가 가장 강력한 곳)은 거의 완벽하게 항등성 상태로 고정되어 있었고, 네트워크 끝 부분 근처의 몇몇 레이어(원래 경로가 적게 작동하는 곳)만이 움직임을 보였습니다.

명확히 언급할 세 가지 사항

설정: solon_v5는 Gemma4-31B를 기반으로 저희 데이터셋에 파인튜닝한 모델입니다. 44B 모델은 동일한 베이스를 사용하며, 총 4 에포크 동안 동일한 데이터셋으로 확장되어 88개 레이어까지 파인튜닝되었습니다.

현재 상태: 현재로서는 확장이 측정 가능한 이점을 제공하지 못하고 있으며, 긴 CoT (Chain-of-Thought) 설정에서 추론 페널티 (reasoning penalty)로 보이는 현상이 관찰되고 있습니다. 이는 완벽한 항등 함수 (identity)가 아닌 삽입된 레이어들로부터 발생하는 작은 잔차 노이즈 (residual noise)가 긴 생성 과정 동안 축적되는 것과 일치합니다.

저희는 이 프로젝트에 대한 관심에 감사드리며, 활성화 문제 (activation problem)를 해결할 방법에 대한 아이디어를 진심으로 듣고 싶습니다. 베이스 모델을 동결한 상태에서 삽입된 레이어만 학습시키는 방식, 다른 초기화 (initialization) 방법, 더 적은 수의 삽입 레이어, 혹은 그 외의 다른 방법 등 무엇이든 좋습니다. 논의할 준비가 되어 있습니다.

제출자: /u/Desperate-Sir-5088

[link] [comments]

Insights

새로 삽입된 레이어가 Gemma4를 망치는 이유

요약

핵심 포인트

댓글

Agents & APIs Austin 개발자 밋업 — 하룻밤 동안 배운 모든 것

Spanlens

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Spanlens

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)