arXiv논문2026. 05. 18. 20:02

멀티모달 모델의 모달리티 경쟁 해결을 위한 2차 고차 다단계 분산 보정 기법

요약

본 연구는 자기회귀적 다음 토큰 학습 방식이 유발하는 모달리티 경쟁 및 불안정성을 해결하기 위해 2차 고차 다단계 분산 보정 기법을 제안합니다. 특히, SOAP 기반의 2차 최적화 프레임워크인 ML-FOP-SOAP를 통해 멀티모달 정렬의 안정적인 기반을 마련했습니다. 이 방법은 피셔-직교 투영과 계층적 폴딩 전략을 결합하여 모달리티 충돌을 효과적으로 억제하며, 대규모 배치 환경에서 샘플 효율성 및 학습 속도를 크게 개선하는 강력한 최적화 도구임을 입증했습니다.

핵심 포인트

1차 최적화 기법(예: AdamW)은 교차 모달리티 그래디언트 이질성에 취약하여 불안정성을 야기합니다.
2차 프리컨디셔닝, 특히 SOAP를 활용한 2차 최적화 프레임워크 ML-FOP-SOAP가 안정적인 멀티모달 정렬을 제공합니다.
피셔-직교 투영과 계층적 폴딩 전략은 모달리티 충돌을 줄이고 대규모 그래디언트 누적 환경에서 실용성을 높입니다.
ML-FOP-SOAP는 기존 AdamW 대비 샘플 효율성을 최대 1.4배, 실제 학습 시간을 최대 1.5배 가속화합니다.
제안된 방법은 Janus 및 Emu3와 같은 모델에 적용되어 대규모 배치 크기(8192)에서도 안정적인 성능 향상을 보였습니다.

자기회귀적 다음 토큰 학습 (Autoregressive next-token training)은 이미지 생성과 텍스트 이해를 위한 통합된 정식화를 제공하지만, 최적화 (Optimization)를 불안정하게 만들고 대규모 배치 스케일링 (Large-batch scaling)을 제한하는 강력한 모달리티 경쟁 (Modality competition)을 유발합니다. 본 연구에서는 AdamW와 같은 1차 최적화 도구 (First-order optimizers)가 교차 모달리티 그래디언트 이질성 (Cross-modality gradient heterogeneity)에 취약한 반면, 2차 프리컨디셔닝 (Second-order preconditioning), 특히 SOAP는 멀티모달 정렬 (Multimodal alignment)을 위한 더 안정적인 기반을 제공함을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 다단계 분산 보정 (Multi-Level Variance Correction)을 포함하는 2차 최적화 프레임워크인 extit{ML-FOP-SOAP}를 제안합니다. 우리의 피셔-직교 투영 (Fisher-Orthogonal Projection)은 분산으로 인한 모달리티 충돌을 억제하여 시각적 생성 (Visual generation)과 텍스트 이해 (Textual understanding) 사이의 트레이드오프 (Trade-off)를 줄여줍니다. 대규모 그래디언트 누적 (Gradient accumulation) 환경에서 이를 실용적으로 구현하기 위해, 우리는 낮은 마이크로 스텝 오버헤드 (Micro-step overhead)로 미세한 분산을 포착하는 계층적 폴딩 전략 (Hierarchical folding strategy)을 도입합니다. Janus 및 Emu3에 대한 실험 결과, 배치 크기 8192에서도 두 모달리티 모두에서 일관된 성능 향상과 안정적인 학습을 보여주었습니다. AdamW와 비교했을 때, 우리의 방법은 샘플 효율성 (Sample efficiency)을 최대 $1.4 imes$ 개선하고 실제 학습 시간 (Wall-clock training)을 최대 $1.5 imes$ 가속화하여, 멀티모달 파운데이션 모델 (Multimodal foundation models) 스케일링을 위한 강력한 최적화 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티모달 모델의 모달리티 경쟁 해결을 위한 2차 고차 다단계 분산 보정 기법

요약

핵심 포인트

댓글