arXiv논문2026. 06. 02. 13:03

FOAM: Shampoo의 Staleness 지향적 오차를 줄이기 위한 주파수 및 연산자 오차 기반 적응형 댐핑 방법

요약

Shampoo 최적화 알고리즘의 연산 오버헤드를 줄이기 위해 Staleness 문제를 해결하는 FOAM 알고리즘을 제안합니다. 주파수 및 연산자 오차를 기반으로 댐핑 계수와 고유값 분해 빈도를 동적으로 제어하여 학습 안정성과 효율성을 동시에 확보합니다.

핵심 포인트

Shampoo의 행렬 역행렬 계산 오버헤드 문제 해결
Staleness로 인한 수치적 불안정성 및 성능 저하 분석
오차 기반 적응형 댐핑을 통한 학습 안정화 구현
표준 Shampoo 대비 실행 시간 단축 및 견고한 수렴성 입증

Shampoo는 대규모 최적화 벤치마크에서 우수한 성능을 보여주며 상당한 주목을 받고 있지만, 행렬 역행렬 (matrix inversion) 계산에 따른 과도한 연산 오버헤드라는 중대한 실무적 병목 현상에 직면해 있습니다. 이를 완화하기 위해 실무자들은 일반적으로 오래된 (stale) 프리컨디셔너 (preconditioner) 업데이트에 의존하며, 이는 연산 효율성과 최적화 충실도 (optimization fidelity) 사이의 근본적인 트레이드오프 (trade-off)를 발생시킵니다. 본 연구에서는 수렴 (convergence)과 안정성 (stability)이라는 상호 보완적인 관점을 통해 Staleness에 대한 이론적 연구를 제공합니다. Staleness는 연산 효율성을 향상시키지만, 본질적으로 성능을 저하시키고 수치적 불안정성 (numerical instability)을 유발합니다. 결정적으로, 우리는 수치적 안정화 장치 역할을 하는 댐핑 (damping)이 이러한 부정적인 효과를 효과적으로 억제할 수 있음을 확인했습니다. 이러한 분석을 바탕으로, 우리는 Staleness 지향적 오차 (staleness-oriented error)의 근사치를 기반으로 댐핑 계수 (damping factor)와 고유값 분해 (eigendecomposition) 빈도를 모두 동적으로 제어하여 학습을 안정화하는 적응형 알고리즘인 FOAM을 제안합니다. 실험 결과, FOAM은 표준 Shampoo와 비교하여 견고한 수렴성을 유지하면서도 실제 실행 시간 (wall-clock time)을 단축함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FOAM: Shampoo의 Staleness 지향적 오차를 줄이기 위한 주파수 및 연산자 오차 기반 적응형 댐핑 방법

요약

핵심 포인트

댓글