arXiv논문2026. 06. 05. 13:45

이중 사전 조건화 (Double Preconditioning, DoPr): 검증 손실 (Validation Loss)이 아닌 테스트 시간 성능

요약

학습 시의 검증 손실과 실제 테스트 시간 성능 사이의 불일치 문제를 해결하기 위한 새로운 최적화 패러다임인 DoPr을 제안합니다. DoPr은 그래디언트 단위와 활성화 단위 사전 조건화를 결합하여 오차 누적을 완화하고 다운스트림 성능을 향상시킵니다.

핵심 포인트

학습/검증 손실과 실제 작업 성공률 간의 불일치(TTF) 문제 지적
오차 누적 완화를 위한 이중 사전 조건화(DoPr) 최적화 방식 제안
Adam/Muon의 그래디언트 사전 조건화와 KFAC의 활성화 사전 조건화 결합
검증 손실 개선 없이도 테스트 시간 성능이 향상됨을 입증

많은 현대 딥러닝 (Deep Learning) 애플리케이션은 단일 단계 예측 손실 (one-step prediction loss, 예: $L^2$ 회귀, 교차 엔트로피 (cross-entropy))을 통해 신경망을 학습시키지만, 네트워크를 배포할 때는 자신의 예측을 따라가며 실행 (rollout)하는 방식을 취합니다. 주요 사례로는 자기회귀 언어 모델링 (autoregressive language modeling), 흐름 기반 생성 모델링 (flow-based generative modeling), 로봇 정책 학습 (robot policy learning) 등이 있습니다. 이러한 설정은 우리가 테스트 시간 피드백 (test-time feedback, TTF)이라고 부르는 현상을 유발한다는 사실이 잘 문서화되어 있습니다. 즉, 학습/검증 손실 (training/validation loss)과 작업 성공률 (task success rate) 및 생성 품질 (generation quality)과 같이 관심 있는 다운스트림 지표 (downstream metrics) 사이의 불일치가 발생하며, 이는 작업의 길이와 함께 증가합니다. TTF 설정에서 학습-테스트 시프트 (train-test shift)에 대응하기 위해 데이터 큐레이션 (data curation), 아키텍처 (architecture), 목적 함수 설계 (objective design) 등이 제안되어 왔으나, 본 논문은 오차 누적 (error accumulation)을 완화하기 위한 새로운 설계 축으로서 최적화 (optimization)를 제안합니다. 구체적으로, 우리는 TTF의 과제에 독특하게 맞춤화된 이중 사전 조건화 (double-preconditioning, DoPr)라고 불리는 새로운 최적화 패러다임을 소개합니다. DoPr는 Adam 및 Muon에서 사용하는 그래디언트 단위 사전 조건화 (gradient-wise preconditioning)를 KFAC에서 사용하는 활성화 단위 사전 조건화 (activation-wise preconditioning, AP)와 결합합니다. 우리는 AP의 추가가 다양한 TTF 설정에 걸쳐 다운스트림 모델 성능을 향상시키는 즉각적인 개입 (drop-in intervention) 효과를 낸다는 것을 보여줍니다. 흥미롭게도, 이러한 테스트 시간 성능의 향상은 검증 손실 (validation loss)의 개선과 일관되게 동반되지 않으며, 이는 단일 단계 지도 학습 목적 함수 (one-step supervised objectives)로 학습된 모델을 어떻게 적절하게 평가할 것인가에 대한 새로운 질문을 던집니다.

AI 자동 생성 콘텐츠

원문 바로가기

이중 사전 조건화 (Double Preconditioning, DoPr): 검증 손실 (Validation Loss)이 아닌 테스트 시간 성능

요약

핵심 포인트

댓글