본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 15:54

비용 인식 학습 (Cost-Aware Learning)

요약

본 논문은 총 비용을 최소화하면서 목표 오차를 달성하는 '비용 인식 학습(Cost-Aware Learning)' 문제를 다룹니다. 연구진은 볼록 함수에 대한 비용 인식 확률적 경사 하강법 알고리즘과 이를 위한 이론적 복잡도 분석을 제시했습니다. 나아가, 이 개념을 언어 모델 기반 강화학습(RL)에 적용하여, 정책 계산 비용이 시퀀스 길이에 따라 변동하는 문제를 해결하기 위해 '비용 인식 GRPO'를 제안하고, 대규모 LLM에서 토큰 사용량을 최대 30% 절감하면서 성능을 유지함을 입증했습니다.

핵심 포인트

  • 비용 인식 학습(Cost-Aware Learning)은 총 비용 최소화와 목표 오차 달성을 동시에 추구하는 최적화 문제입니다.
  • 볼록 함수에 대한 비용 인식 확률적 경사 하강법 알고리즘을 제안하고, 관련 비용 복잡도 및 하한 이론을 수립했습니다.
  • 언어 모델 기반 강화학습(RL)의 정책 계산 비용 문제를 해결하기 위해 '비용 인식 GRPO'를 개발했습니다.
  • 실험 결과, 대형 언어 모델(LLM)에서 이 접근법은 토큰 사용량을 최대 30% 줄이면서 기본 성능을 유지하거나 능가함을 보여주었습니다.

우리는 유한 합 목적 함수의 서로 다른 구성 요소 함수를 샘플링할 때 서로 다른 비용이 발생하는 비용 인식 학습 (Cost-Aware Learning) 문제를 고려합니다. 목표는 총 비용을 최소화하면서 목표 오차에 도달하는 것입니다. 먼저, 우리는 볼록 함수에 대한 비용 인식 확률적 경사 하강법 (Cost-Aware Stochastic Gradient Descent) 알고리즘을 제안하고 $ε$ 의 오차를 달성하기 위한 비용 복잡도 (cost complexity) 를 유도합니다. 또한, 이 설정에 대한 하한 (lower bound) 을 수립하고 훈련 비용을 추가로 줄이기 위한 부분집합 선택 알고리즘 (subset selection algorithm) 을 제공합니다. 우리는 이러한 이론적 통찰력을 언어 모델과 결합된 강화학습 (reinforcement learning with language models) 에 적용하며, 여기서 정책 경사 (policy gradients) 의 계산 비용은 시퀀스 길이와 함께 변동합니다. 이를 위해 정책 최적화의 비용을 줄이면서 성능을 유지하도록 설계된 비용 인식 GRPO (Cost-Aware GRPO) 알고리즘을 소개합니다. 15 억 파라미터 및 80 억 파라미터 대형 언어 모델 (LLM) 에서의 실험적 결과는 우리의 접근법이 정책 최적화에 사용되는 토큰 수를 최대 약 30% 줄이면서 기본선 정확도를 일치하거나 초과함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0