훈련이 필요 없는 루프형 트랜스포머 (Training-Free Looped Transformers)
요약
추가 학습이나 구조 변경 없이 동결된 모델에 재귀적 루프를 적용하여 성능을 높이는 새로운 추론 기법을 제안합니다. Pre-norm 블록을 ODE의 전방 오일러 단계로 해석하여, 하나의 큰 업데이트를 정밀한 하위 단계로 나누어 처리하는 방식을 사용합니다.
핵심 포인트
- 미세 조정 없이 추론 시점에 루프 구조를 적용하는 래퍼 제안
- Pre-norm 블록을 상미분 방정식(ODE) 관점에서 해석하여 정밀화
- Dense, Sparse MoE, MLA+MoE 모델군에서 성능 향상 입증
- MMLU-Pro 및 CommonsenseQA 등 주요 벤치마크 성능 개선
우리는 추가적인 미세 조정 (Fine-tuning), 지속적인 학습 (Continued training), 또는 구조적 변경 없이도, 경량화된 추론 시점의 래퍼 (Inference-time wrapper)가 동결된 체크포인트 (Frozen checkpoint)의 연속적인 중간 스택 레이어 블록을 반복시키는 '훈련이 필요 없는 루프형 트랜스포머 (Training-free looped transformers)'를 소개합니다. 루프 구조를 사용하여 엔드 투 엔드 (End-to-end)로 학습하는 기존의 루프형 트랜스포머 방법들과 달리, 우리는 테스트 시점에 사전 학습된 모델 (Pretrained models)에 재귀성 (Recurrence)을 소급 적용합니다. 우리는 단순한 블록 재적용이 대개 성능을 저하시킨다는 것을 보여주며, 루프 적용 전략의 중요성을 강조합니다. Pre-norm 트랜스포머 블록을 상미분 방정식 (ODE)에 대한 전방 오일러 단계 (Forward Euler step)로 보는 관점에서 영감을 얻어, 우리는 루프를 동일한 근사치의 정밀화 (Refinement) 과정으로 취급하며, 하나의 큰 업데이트를 더 작고 감쇠된 하위 단계 (Damped sub-steps)로 대체합니다. 7개의 밀집 (Dense), 희소 MoE (Sparse MoE), 그리고 MLA+MoE 모델 제품군에 걸쳐, 우리의 방법은 MMLU-Pro에서 Qwen3-4B-Instruct를 +2.64 pp, CommonsenseQA에서 Qwen3-30B-A3B-Instruct를 +1.14 pp, 그리고 OpenBookQA에서 Moonlight-16B-A3B-Instruct를 +1.20 pp 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기