학습된 확률적 정지(Learned Stochastic Stopping)를 통한 루프형 트랜스포머(Looped Transformers)의
요약
루프형 트랜스포머의 길이 일반화 성능을 높이기 위해 학습된 확률적 정지(Learned Stochastic Stopping) 기법을 제안합니다. 훈련 과정에서 루프 횟수에 확률성을 도입함으로써 분포 외(OOD) 분산을 줄이고 예측 안정성을 개선할 수 있음을 입증했습니다.
핵심 포인트
- 루프형 트랜스포머의 OOD 분산 원인을 가짜 상관관계로 규명
- 훈련 시 루프 횟수에 확률성을 도입하여 예측 안정성 확보
- 학습된 확률적 스케줄이 정확도-안정성 트레이드오프를 개선
- 정지 규칙을 추론 시 규칙이 아닌 훈련 시 설계 요소로 제안
공유된 트랜스포머 블록(transformer block)을 반복적으로 적용하는 루프형 트랜스포머(Looped Transformers)는 가변 길이의 알고리즘 작업(algorithmic tasks)에 구조적으로 자연스럽게 부합합니다. 이들은 훈련 시퀀스 길이를 넘어서는 강력한 길이 일반화(length generalization) 능력을 보여줄 수 있지만, 이러한 동작은 취약하여 성능이 좋은 분포 내(in-distribution) 솔루션들 사이에서도 높은 분포 외(out-of-distribution, OOD) 분산을 발생시킵니다. 우리는 이러한 분산의 원인이 단순 알고리즘 작업에서 시퀀스 길이와 루프 횟수 사이의 가짜 상관관계(spurious correlation)에 있음을 추적했습니다. 훈련 과정 중 루프 횟수에 확률성(stochasticity)을 도입하면 OOD 분산을 급격히 줄이고 추론 시 루프 횟수에 따른 예측을 안정화할 수 있습니다. 휴리스틱한 무작위화 방식(heuristic randomization schemes)을 개선하기 위해, 우리는 RL-Halting을 학습된 확률적 스케줄(learned stochastic schedule)로서 추가로 분석하였으며, 이것이 일반적으로 정확도-안정성 트레이드오프(accuracy-stability trade-off)를 개선한다는 것을 발견했습니다. 이진 덧셈(binary addition), Dyck-1, Unique Set, Copy 작업 전반에 걸쳐, 학습된 확률적 정지(learned stochastic stopping)는 종종 이 트레이드오프를 개선하지만, 때로는 차선책(suboptimal)인 계산을 안정화할 수도 있습니다. 우리의 연구는 "언제 멈출 것인가"가 단순히 추론 시의 계산 할당 규칙(computation-allocation rule)이 아니라, 훈련 시의 설계 선택 사항(training-time design choice)으로 다뤄져야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기