SamatNext v0.2-B: 소규모 코드 모델의 커리큘럼 유지력을 위한 RMS 정규화 하이브리드 디코더에 관한 탐색적 연구
요약
SamatNext v0.2-B는 RMS 정규화와 선형 상태 믹서를 결합한 356M 규모의 하이브리드 디코더 모델입니다. 순차적 미세 조정 과정에서 발생하는 치명적 망각 문제를 완화하여 코드 커리큘럼 유지력을 높이는 연구를 수행했습니다.
핵심 포인트
- RMS 정규화와 DeltaNet 기반 선형 상태 믹서의 교차 배치
- Transformer 대비 높은 커리큘럼 유지력 및 가소성 입증
- Stage 5 통과율 100% 및 Stage 3 동작 98.8% 유지
- 치명적 망각 완화를 위한 새로운 아키텍처적 접근법 제시
표준적인 자기회귀 (Autoregressive) Transformer 디코더는 변화하는 커리큘럼 분포에 따른 순차적 미세 조정 (Sequential Fine-tuning) 과정에서 상당한 망각 현상을 보이는 경우가 많습니다. 본 기술 보고서는 RMS 정규화 (RMS Normalization) 및 출력 스케일 보정 (Output Scale Calibration)을 사용하는 Differential-Attention 스타일의 레이어와 DeltaNet에서 영감을 받은 단순화된 선형 상태 믹서 (Linear-state Mixer) 레이어를 교차 배치한 356M 파라미터 규모의 실험적 하이브리드 시퀀스 디코더인 SamatNext v0.2-B를 평가합니다. 우리는 통제된 단계별 Python 코드 커리큘럼 환경에서 이 모델을 연구하고, 파라미터 수가 동일한 Transformer 베이스라인과 비교합니다. 이 설정에서 SamatNext v0.2-B는 통제된 Stage 5 홀드아웃 (Holdout)에서 100.0%의 통과율을 달성하는 동시에, 인접한 Stage 3의 의미론적 동작을 98.8% 유지하며, Stage 2E 초기 구문 홀드아웃에서 12.0%에 도달했습니다. 가장 강력한 Transformer 베이스라인은 Stage 5에서 97.6%에 도달하지만 Stage 3 동작은 6.0%만을 유지합니다. 두 아키텍처 모두 장기적인 초기 단계 유지력 측면에서는 여전히 취약하므로, 이 결과는 치명적 망각 (Catastrophic Forgetting)에 대한 일반적인 해결책이 아니라, 이 통제된 설정 내에서 변화된 유지력/가소성 (Retention/Plasticity) 트레이드오프의 증거로 해석되어야 합니다. 독립적인 검증을 위해 코드, 모델 사양, 평가 스크립트 및 결과 표가 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기