arXiv논문2026. 05. 01. 15:56

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

요약

본 논문은 LLM의 강화학습(RL) 기반 추론 과정에서 발생하는 계산 및 메모리 오버헤드 문제를 해결하는 새로운 접근 방식을 제시합니다. 기존 방법들(PPO, GRPO 등)이 가치 함수를 추정하거나 많은 샘플링을 요구하여 자원 제약적인 환경에 비효율적이라는 한계를 지적합니다. 이를 극복하기 위해, 본 연구는 계산 및 통계적으로 효율적인 고전적인 비모수 통계 방법인 커널 스무딩(kernel smoothing)을 LLM의 가치 함수 추정 및 정책 최적화에 적용하여 정확도를 높이는 방법을 제안합니다.

핵심 포인트

LLM 기반 RL은 높은 성능을 제공하지만, 기존 방식들은 가치 네트워크 추정이나 과도한 샘플링으로 인해 계산 비용이 크다는 문제가 있습니다.
제안된 방법은 자원 제약적인 환경에서 소수의 추론 트레이스만 사용하여 고품질의 정책 학습을 목표로 합니다.
핵심 해결책으로, 통계적으로 효율적인 비모수 기법인 커널 스무딩(kernel smoothing)을 LLM의 가치 함수 추정 및 정책 최적화에 적용합니다.
이 접근 방식은 정확한 값 및 그래디언트 추정을 가능하게 하여, 자원 제약 환경에서도 효과적인 정책 최적화를 달성함을 입증했습니다.

최근 대형 언어 모델 (LLMs) 의 발전은 추론 능력을 향상시키기 위해 강화학습 (RL) 에 점점 더 의존하고 있습니다. 세 가지 접근법이 널리 채택되었습니다: (i) 근접 정책 최적화 (Proximal policy optimization) 와 이득 액터-크리틱 (advantage actor-critic) 은 정책 그래디언트의 분산을 줄이기 위해 학습 정책의 가치 함수를 추정하기 위해 심층 신경망을 사용합니다. 그러나 이러한 가치 네트워크를 추정하고 유지하는 것은 상당한 계산 및 메모리 오버헤드를 초래합니다. (ii) 그룹 상대 정책 최적화 (GRPO) 는 샘플 평균을 사용하여 가치 함수를 근사함으로써 가치 네트워크를 훈련하지 않습니다. 그러나 GRPO 는 정확한 가치 함수 근사를 달성하기 위해 프롬프트 당 많은 수의 추론 트레이스를 샘플링하므로 계산 비용이 많이 듭니다. (iii) REINFORCE 형 알고리즘은 프롬프트 당 단일 추론 궤적만 샘플링하여 계산 비용을 줄이지만, 낮은 효율성을 겪습니다. 이 작업에서는 프롬프트 당 소수의 추론 트레이스만 샘플링할 수 있는 실용적이고 자원 제약이 있는 환경에 초점을 맞추되, 고품질 정책 학습을 위해서는 여전히 낮은 분산의 그래디언트 추정치가 필수적입니다. 이 과제를 해결하기 위해 우리는 계산 및 통계적으로 효율적인 고전적 비모수 통계 방법을 LLM 추론에 적용합니다. 가치 함수 추정과 이후 정책 최적화를 위한 구체적인 예로 커널 스무딩 (kernel smoothing) 을 사용합니다. 수치적 및 이론적 결과는 제안된 방법이 정확한 값 및 그래디언트 추정을 달성하여 정책 최적화를 개선함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

요약

핵심 포인트

댓글