RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

저차원 적응 (LoRA) 및 그 변형들은 지도 미세 조정 (SFT) 패러다임 하에서 대규모 언어 모델의 매개변수 효율적인 미세 조정을 가능하게 합니다. 그러나 검증 가능한 보상을 사용하는 강화학습 (RLVR) 환경에서의 효능과 동작은 아직 충분히 이해되지 않았습니다. 특히, SFT 환경에서 표준 LoRA보다 성능이 뛰어난 두 가지 구조적 초기화 LoRA 변형인 PiSSA와 MiLoRA는 RLVR 환경에서는 표준 LoRA보다 성능이 낮을 수 있으며, 심지어 학습 불안정성을 보일 수도 있습니다. 이러한 관찰 결과는 RLVR에서 저차원 행렬을 어떻게 초기화해야 하는지가 여전히 불분명함을 시사합니다. 본 연구에서는 RLVR에서의 LoRA에 대한 이론적 분석을 개발하여, 직교 초기화 (orthonormal initialization)가 LoRA의 결과와 전체 미세 조정 (full fine-tuning) 결과 사이의 격차를 최소화함을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 RLVR에서의 저차원 적응을 위한 기하학적 보존 직교 초기화 (geometry-preserving orthonormal initialization)를 제안하며, 이를 통해 RLPO와 RLMO라는 두 가지 새로운 변형을 도출합니다. 수학적 추론 벤치마크에 대한 실험 결과, 제안된 직교 초기화는 RLVR 학습을 안정화하고 PiSSA 및 MiLoRA와 대조적으로 표준 LoRA보다 뛰어난 성능을 보임을 입증했습니다. 마지막으로, LoRA 초기화에 대한 우리의 통합 분석은 PiSSA와 MiLoRA가 왜 RLVR에서 성능이 저하될 수 있는지를 설명하며, 이는 독립적인 관심사가 될 수 있습니다. 코드와 체크포인트는 https://github.com/Richard-ZZZ/geometry-preserving-orthonormal-init-rlvr 에서 공개적으로 사용할 수 있습니다.

Insights

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들