RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화
요약
RLVR 환경에서 LoRA의 성능 저하와 불안정성 문제를 해결하기 위해 기하학적 보존 직교 초기화 방식을 제안합니다. 연구 결과, 제안된 방식은 표준 LoRA보다 뛰어난 성능을 보이며 학습을 안정화함을 입증했습니다.
핵심 포인트
- RLVR 환경에서 기존 LoRA 변형(PiSSA, MiLoRA)의 성능 저하 원인 분석
- 직교 초기화가 LoRA와 전체 미세 조정 간의 격차를 최소화함을 이론적으로 증명
- 새로운 변형인 RLPO 및 RLMO 제안
- 수학적 추론 벤치마크에서 표준 LoRA 대비 우수한 성능 및 안정성 확인
저차원 적응 (LoRA) 및 그 변형들은 지도 미세 조정 (SFT) 패러다임 하에서 대규모 언어 모델의 매개변수 효율적인 미세 조정을 가능하게 합니다. 그러나 검증 가능한 보상을 사용하는 강화학습 (RLVR) 환경에서의 효능과 동작은 아직 충분히 이해되지 않았습니다. 특히, SFT 환경에서 표준 LoRA보다 성능이 뛰어난 두 가지 구조적 초기화 LoRA 변형인 PiSSA와 MiLoRA는 RLVR 환경에서는 표준 LoRA보다 성능이 낮을 수 있으며, 심지어 학습 불안정성을 보일 수도 있습니다. 이러한 관찰 결과는 RLVR에서 저차원 행렬을 어떻게 초기화해야 하는지가 여전히 불분명함을 시사합니다. 본 연구에서는 RLVR에서의 LoRA에 대한 이론적 분석을 개발하여, 직교 초기화 (orthonormal initialization)가 LoRA의 결과와 전체 미세 조정 (full fine-tuning) 결과 사이의 격차를 최소화함을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 RLVR에서의 저차원 적응을 위한 기하학적 보존 직교 초기화 (geometry-preserving orthonormal initialization)를 제안하며, 이를 통해 RLPO와 RLMO라는 두 가지 새로운 변형을 도출합니다. 수학적 추론 벤치마크에 대한 실험 결과, 제안된 직교 초기화는 RLVR 학습을 안정화하고 PiSSA 및 MiLoRA와 대조적으로 표준 LoRA보다 뛰어난 성능을 보임을 입증했습니다. 마지막으로, LoRA 초기화에 대한 우리의 통합 분석은 PiSSA와 MiLoRA가 왜 RLVR에서 성능이 저하될 수 있는지를 설명하며, 이는 독립적인 관심사가 될 수 있습니다. 코드와 체크포인트는 https://github.com/Richard-ZZZ/geometry-preserving-orthonormal-init-rlvr 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기