arXiv논문2026. 05. 25. 16:48

훈련이 필요 없는 루프형 트랜스포머 (Training-Free Looped Transformers)

요약

추가 학습이나 구조 변경 없이 동결된 모델에 재귀적 루프를 적용하여 성능을 높이는 새로운 추론 기법을 제안합니다. Pre-norm 블록을 ODE의 전방 오일러 단계로 해석하여, 하나의 큰 업데이트를 정밀한 하위 단계로 나누어 처리하는 방식을 사용합니다.

핵심 포인트

미세 조정 없이 추론 시점에 루프 구조를 적용하는 래퍼 제안
Pre-norm 블록을 상미분 방정식(ODE) 관점에서 해석하여 정밀화
Dense, Sparse MoE, MLA+MoE 모델군에서 성능 향상 입증
MMLU-Pro 및 CommonsenseQA 등 주요 벤치마크 성능 개선

우리는 추가적인 미세 조정 (Fine-tuning), 지속적인 학습 (Continued training), 또는 구조적 변경 없이도, 경량화된 추론 시점의 래퍼 (Inference-time wrapper)가 동결된 체크포인트 (Frozen checkpoint)의 연속적인 중간 스택 레이어 블록을 반복시키는 '훈련이 필요 없는 루프형 트랜스포머 (Training-free looped transformers)'를 소개합니다. 루프 구조를 사용하여 엔드 투 엔드 (End-to-end)로 학습하는 기존의 루프형 트랜스포머 방법들과 달리, 우리는 테스트 시점에 사전 학습된 모델 (Pretrained models)에 재귀성 (Recurrence)을 소급 적용합니다. 우리는 단순한 블록 재적용이 대개 성능을 저하시킨다는 것을 보여주며, 루프 적용 전략의 중요성을 강조합니다. Pre-norm 트랜스포머 블록을 상미분 방정식 (ODE)에 대한 전방 오일러 단계 (Forward Euler step)로 보는 관점에서 영감을 얻어, 우리는 루프를 동일한 근사치의 정밀화 (Refinement) 과정으로 취급하며, 하나의 큰 업데이트를 더 작고 감쇠된 하위 단계 (Damped sub-steps)로 대체합니다. 7개의 밀집 (Dense), 희소 MoE (Sparse MoE), 그리고 MLA+MoE 모델 제품군에 걸쳐, 우리의 방법은 MMLU-Pro에서 Qwen3-4B-Instruct를 +2.64 pp, CommonsenseQA에서 Qwen3-30B-A3B-Instruct를 +1.14 pp, 그리고 OpenBookQA에서 Moonlight-16B-A3B-Instruct를 +1.20 pp 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

훈련이 필요 없는 루프형 트랜스포머 (Training-Free Looped Transformers)

요약

핵심 포인트

댓글