HN요약2026. 04. 28. 05:10

오프라인 강화학습을 활용한 LLM 다단계 추론

요약

본 논문은 대형 언어 모델(LLM)의 다단계 추론 능력을 오프라인 강화학습(RL)으로 개선하는 새로운 방법인 OREO(Offline Reasoning Optimization)를 제안합니다. 기존의 DPO와 같은 방식은 선호도 데이터 의존성 및 희소 보상 환경에서의 신용 할당 문제로 인해 복잡한 다단계 추론 작업에 적용하기 어렵습니다. OREO는 소프트 벨만 방정식을 최적화하여 정책 모델과 가치 함수를 공동으로 학습함으로써, 쌍별 데이터 수집의 필요성을 줄이고 효과적인 신용 할당을 가능하게 합니다.

핵심 포인트

LLM의 다단계 추론 능력 향상을 위해 OREO(Offline Reasoning Optimization)라는 새로운 오프라인 RL 프레임워크를 제안했다.
기존 DPO 방식은 선호도 데이터 의존성과 희소 보상 환경에서의 신용 할당 문제로 인해 복잡한 다단계 추론에 한계가 있다.
OREO는 소프트 벨만 방정식을 최적화하여 정책 모델과 가치 함수를 공동으로 학습함으로써, 쌍별 데이터 필요성을 줄이고 신용 할당을 개선한다.
제안된 OREO 방법은 수학 추론(GSM8K, MATH) 및 에이전트 제어(ALFWorld) 등 다양한 다단계 벤치마크에서 기존 방법을 능가하는 성능을 보였다.

오프라인 강화학습을 활용한 LLM 다단계 추론

Abstract

대형 언어 모델 (LLM) 의 다단계 추론 능력을 오프라인 강화학습 (RL) 으로 향상시키는 것은 이를 복잡한 작업에 빠르게 적응시키는 데 필수적입니다. 직접 선호도 최적화 (DPO) 는 인간 선호도와 LLM 을 정렬하는 데 유망한 결과를 보였지만, (1) DPO 는 짝지어진 선호도 데이터를 의존하는데, 다단계 추론 작업에는 이러한 데이터가 쉽게 구할 수 없으며, (2) 모든 토큰을 균일하게 취급하여 희소 보상 (sparse reward) 을 동반하는 경우가 많은 다단계 추론 작업의 신용 할당 (credit assignment) 에 효과적이지 않기 때문에, 다단계 추론 작업에 적합하지 않습니다. 본 연구에서는 오프라인 강화학습 방법을 통해 LLM 의 다단계 추론 능력을 향상시키기 위한 OREO(Offline Reasoning Optimization) 를 제안합니다. 최대 엔트로피 강화학습의 이전 연구들에서 얻은 통찰력을 바탕으로, 소프트 벨만 방정식 (soft Bellman Equation) 을 최적화하여 정책 모델과 가치 함수를 공동으로 학습합니다. 우리는 이론적으로 이것이 쌍별 데이터 수집에 대한 필요성을 줄이고 더 나은 신용 할당을 가능하게 함을 보여줍니다. 경험적으로 OREO 는 수학 추론 작업 (GSM8K, MATH) 과 구체적 에이전트 제어 (ALFWorld) 를 포함한 다단계 추론 벤치마크에서 기존 오프라인 학습 방법을 능가합니다. 이 접근법은 추가 자원이 있을 때 다중 반복 프레임워크로 확장할 수 있습니다. 또한, 학습된 가치 함수를 무료로 활용하여 트리 검색 (tree search) 을 안내할 수 있으며, 이는 테스트 시간 (test time) 동안 성능을 더욱 향상시킬 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

오프라인 강화학습을 활용한 LLM 다단계 추론

요약

핵심 포인트

오프라인 강화학습을 활용한 LLM 다단계 추론

Abstract

댓글