RMSNorm Transformer를 위한 부호-순열 좌표 전송 (Signed-Permutation Coordinate Transport)

현대적인 LLM 워크플로우는 스티어링 벡터 (steering vectors), 희소 오토인코더 (sparse autoencoders), top-$k$ 뉴런 집합, 기여도 목록 (attribution lists), 그리고 병합 정렬 (merge alignments)과 같이 좌표로 인덱싱된 객체들을 체크포인트 간에 이동시킵니다. 이는 모델의 잔차 스트림 게이지 (residual-stream gauge)를 고정한 후에야 비로소 잘 정의될 수 있으며, 본 논문에서는 이것이 아키텍처에 의존적임을 보여줍니다. LayerNorm 잔차 차트 (residual charts)는 (전역적인 부호 반전을 제외하면) 순열 게이지 $S_d$를 갖는 반면, 일반적인 채널별 이득 (per-channel gain)을 가진 RMSNorm 차트는 부호-순열 게이지 $B_d = S_d imes ext{sgn}( ext{sign flip})$를 갖습니다. 따라서 순열만 사용하는 정렬은 RMSNorm 모델에 대해 대칭성 측면에서 불완전합니다. 우리는 부호-한계화 헝가리안 매칭 (sign-marginalized Hungarian matching)을 도입하고 명확한 실패 모드를 증명합니다. 즉, 상관관계가 없는 좌표의 경우, 가공되지 않은 부호-상관관계 매칭 (raw signed-correlation matching)은 실제 게이지의 양의 부호 비율에서 구조적인 순열 정확도 한계(ceiling)를 가지며, 부호-한계화는 이를 제거합니다. 그런 다음 우리는 함수 수준의 병합이 아닌, 좌표 보존 전송 (coordinate-preserving transport)을 주요 대상으로 삼습니다. 동일한 베이스 미세 조정 (fine-tuning) 궤적을 따라 저장된 체크포인트의 로컬 $B_d$ 게이지를 합성하면, 엔드포인트 매칭 (endpoint matching)의 60.3%와 비교하여 1500 스텝에서 교차 실행 좌표의 91.1%를 복구할 수 있으며, 이러한 이득은 단순히 베이스를 통해 라우팅하는 것만으로는 설명되지 않습니다. 복구된 게이지는 순열 전용 정렬이 깨뜨리는 도구들을 전송합니다: TinyLlama SAE 재구성은 $S_d$ 하에서의 NMSE 1.08과 비교하여 $B_d$ 하에서 0.004의 NMSE를 가집니다; Qwen 감성 스티어링 (sentiment steering)은 17.2%와 비교하여 효과의 95.8%를 보존합니다; 거부 스티어링 (refusal steering)은 $S_d$ 하에서 부호가 반전됩니다; 좌표 보존 병합도 동일하게 작동합니다. 동일한 공분산이 상태 유지 학습 (stateful training)을 지배합니다: AdamW 상태의 부호 전송은 재개된 궤적을 보존하는 반면, 순열 전용 상태는 기능적으로 동일한 체크포인트로부터 다른 궤적을 따릅니다. 마지막으로, 게이지-스윕 감사 (gauge-sweep audits)는 인덱스 수준의 해석 가능성 주장이 명시적인 게이지에 상대적으로만 재현 가능하다는 것을 보여줍니다.

Insights

RMSNorm Transformer를 위한 부호-순열 좌표 전송 (Signed-Permutation Coordinate Transport)

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기