arXiv논문2026. 06. 23. 12:22

SamatNext v0.2-B: 소규모 코드 모델의 커리큘럼 유지력을 위한 RMS 정규화 하이브리드 디코더에 관한 탐색적 연구

요약

SamatNext v0.2-B는 RMS 정규화와 선형 상태 믹서를 결합한 356M 규모의 하이브리드 디코더 모델입니다. 순차적 미세 조정 과정에서 발생하는 치명적 망각 문제를 완화하여 코드 커리큘럼 유지력을 높이는 연구를 수행했습니다.

핵심 포인트

RMS 정규화와 DeltaNet 기반 선형 상태 믹서의 교차 배치
Transformer 대비 높은 커리큘럼 유지력 및 가소성 입증
Stage 5 통과율 100% 및 Stage 3 동작 98.8% 유지
치명적 망각 완화를 위한 새로운 아키텍처적 접근법 제시

표준적인 자기회귀 (Autoregressive) Transformer 디코더는 변화하는 커리큘럼 분포에 따른 순차적 미세 조정 (Sequential Fine-tuning) 과정에서 상당한 망각 현상을 보이는 경우가 많습니다. 본 기술 보고서는 RMS 정규화 (RMS Normalization) 및 출력 스케일 보정 (Output Scale Calibration)을 사용하는 Differential-Attention 스타일의 레이어와 DeltaNet에서 영감을 받은 단순화된 선형 상태 믹서 (Linear-state Mixer) 레이어를 교차 배치한 356M 파라미터 규모의 실험적 하이브리드 시퀀스 디코더인 SamatNext v0.2-B를 평가합니다. 우리는 통제된 단계별 Python 코드 커리큘럼 환경에서 이 모델을 연구하고, 파라미터 수가 동일한 Transformer 베이스라인과 비교합니다. 이 설정에서 SamatNext v0.2-B는 통제된 Stage 5 홀드아웃 (Holdout)에서 100.0%의 통과율을 달성하는 동시에, 인접한 Stage 3의 의미론적 동작을 98.8% 유지하며, Stage 2E 초기 구문 홀드아웃에서 12.0%에 도달했습니다. 가장 강력한 Transformer 베이스라인은 Stage 5에서 97.6%에 도달하지만 Stage 3 동작은 6.0%만을 유지합니다. 두 아키텍처 모두 장기적인 초기 단계 유지력 측면에서는 여전히 취약하므로, 이 결과는 치명적 망각 (Catastrophic Forgetting)에 대한 일반적인 해결책이 아니라, 이 통제된 설정 내에서 변화된 유지력/가소성 (Retention/Plasticity) 트레이드오프의 증거로 해석되어야 합니다. 독립적인 검증을 위해 코드, 모델 사양, 평가 스크립트 및 결과 표가 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

SamatNext v0.2-B: 소규모 코드 모델의 커리큘럼 유지력을 위한 RMS 정규화 하이브리드 디코더에 관한 탐색적 연구

요약

핵심 포인트

댓글