arXiv논문2026. 06. 25. 22:40

강화학습 (RL)에서의 저차원 적응 (LoRA)을 이용한 메모리 효율적인 정책 라이브러리

요약

강화학습(RL) 환경에서 LoRA를 활용해 메모리 효율적인 정책 라이브러리를 구축하는 연구를 소개합니다. LoRA를 통해 전체 미세 조정 대비 메모리 사용량을 최대 160배 절감하면서도 성능 차이 없이 다수의 전문화된 정책을 저장할 수 있음을 입증했습니다.

핵심 포인트

LoRA를 활용해 RL 모델의 메모리 및 연산량 최소화
전체 미세 조정 대비 메모리 사용량 20~160배 절감
다수 정책 라이브러리 배포 시 저장 공간 90~95% 절약
전체 미세 조정과 유사한 수준의 작업 성공률 유지

대규모 언어 모델 (LLMs)을 미세 조정 (Fine-tuning)할 때, 저차원 적응 (Low Rank Adaptation, LoRA)과 같은 매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT)을 통해 메모리 사용량과 연산량을 모두 최소화하는 데 성공해 왔습니다. 본 논문에서는 이러한 접근 방식이 로보틱스 및 강화학습 (Reinforcement Learning, RL) 분야로 전이될 수 있는지 탐구하였으며, 이를 통해 메모리 사용량을 줄이고 연산 성능을 향상시킨 학습이 가능한지 확인하였습니다. 구체적으로, 우리는 전문화된 정책 (Policies) 라이브러리가 생성되는 멀티태스크 로보틱스 버전에 집중했습니다. 이러한 라이브러리에서는 메모리 효율성이 특히 중요합니다. 우리는 근사 정책 최적화 (Proximal Policy Optimization, PPO) 알고리즘을 사용하였으며, LoRA를 사용하여 베이스라인 모델을 다양한 작업에 맞춰 미세 조정하였습니다. 우리의 결과에 따르면, 하이퍼파라미터에 따라 LoRA는 모든 레이어를 전체 미세 조정 (Full fine-tuning)하는 것에 비해 메모리 사용량을 20~~160배까지 최소화할 수 있음을 보여줍니다. 이는 다수의 (10~~50개) 전문화된 정책 라이브러리를 배포할 때 90~95%의 저장 공간 절감을 의미하며, 이는 실제 로보틱스 환경에서 전체 라이브러리를 메모리에 저장할 수 있는지 아니면 스왑 메모리 (Swap-memory)를 사용해야 하는지를 결정짓는 차별화 요소가 될 수 있습니다. 동시에, 우리의 결과는 선택된 작업들에 대해 전체 미세 조정과 LoRA 미세 조정 간의 성공률(Success-rate)에 유의미한 차이가 없음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL)에서의 저차원 적응 (LoRA)을 이용한 메모리 효율적인 정책 라이브러리

요약

핵심 포인트

댓글