RMSNorm Transformer를 위한 부호-순열 좌표 전송 (Signed-Permutation Coordinate Transport)
요약
RMSNorm 아키텍처를 사용하는 모델 간에 스티어링 벡터나 SAE 등 좌표 기반 객체를 전송할 때 발생하는 부호-순열 게이지 문제를 다룹니다. 부호-한계화 헝가리안 매칭을 통해 좌표 보존 전송을 수행함으로써 체크포인트 간의 해석 가능성 도구와 학습 상태를 효과적으로 복구할 수 있음을 증명합니다.
핵심 포인트
- RMSNorm은 LayerNorm과 달리 부호-순열 게이지를 가짐
- 부호-한계화 헝가리안 매칭으로 좌표 전송 정확도 향상
- SAE 재구성 및 감성/거부 스티어링 효과의 높은 보존율 입증
- AdamW 상태의 부호 전송이 학습 궤적 보존에 필수적임
현대적인 LLM 워크플로우는 스티어링 벡터 (steering vectors), 희소 오토인코더 (sparse autoencoders), top-$k$ 뉴런 집합, 기여도 목록 (attribution lists), 그리고 병합 정렬 (merge alignments)과 같이 좌표로 인덱싱된 객체들을 체크포인트 간에 이동시킵니다. 이는 모델의 잔차 스트림 게이지 (residual-stream gauge)를 고정한 후에야 비로소 잘 정의될 수 있으며, 본 논문에서는 이것이 아키텍처에 의존적임을 보여줍니다. LayerNorm 잔차 차트 (residual charts)는 (전역적인 부호 반전을 제외하면) 순열 게이지 $S_d$를 갖는 반면, 일반적인 채널별 이득 (per-channel gain)을 가진 RMSNorm 차트는 부호-순열 게이지 $B_d = S_d imes ext{sgn}( ext{sign flip})$를 갖습니다. 따라서 순열만 사용하는 정렬은 RMSNorm 모델에 대해 대칭성 측면에서 불완전합니다. 우리는 부호-한계화 헝가리안 매칭 (sign-marginalized Hungarian matching)을 도입하고 명확한 실패 모드를 증명합니다. 즉, 상관관계가 없는 좌표의 경우, 가공되지 않은 부호-상관관계 매칭 (raw signed-correlation matching)은 실제 게이지의 양의 부호 비율에서 구조적인 순열 정확도 한계(ceiling)를 가지며, 부호-한계화는 이를 제거합니다. 그런 다음 우리는 함수 수준의 병합이 아닌, 좌표 보존 전송 (coordinate-preserving transport)을 주요 대상으로 삼습니다. 동일한 베이스 미세 조정 (fine-tuning) 궤적을 따라 저장된 체크포인트의 로컬 $B_d$ 게이지를 합성하면, 엔드포인트 매칭 (endpoint matching)의 60.3%와 비교하여 1500 스텝에서 교차 실행 좌표의 91.1%를 복구할 수 있으며, 이러한 이득은 단순히 베이스를 통해 라우팅하는 것만으로는 설명되지 않습니다. 복구된 게이지는 순열 전용 정렬이 깨뜨리는 도구들을 전송합니다: TinyLlama SAE 재구성은 $S_d$ 하에서의 NMSE 1.08과 비교하여 $B_d$ 하에서 0.004의 NMSE를 가집니다; Qwen 감성 스티어링 (sentiment steering)은 17.2%와 비교하여 효과의 95.8%를 보존합니다; 거부 스티어링 (refusal steering)은 $S_d$ 하에서 부호가 반전됩니다; 좌표 보존 병합도 동일하게 작동합니다. 동일한 공분산이 상태 유지 학습 (stateful training)을 지배합니다: AdamW 상태의 부호 전송은 재개된 궤적을 보존하는 반면, 순열 전용 상태는 기능적으로 동일한 체크포인트로부터 다른 궤적을 따릅니다. 마지막으로, 게이지-스윕 감사 (gauge-sweep audits)는 인덱스 수준의 해석 가능성 주장이 명시적인 게이지에 상대적으로만 재현 가능하다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기