Reddit요약2026. 05. 14. 06:09

RL 학습을 위한 프롬프트 캐싱 (Prompt Caching) - 긴 프롬프트/짧은 응답 워크로드에서 7.5배 속도 향상

요약

본 기사는 RL 학습 환경에서 발생하는 비효율적인 토큰 처리 방식을 지적하며, 특히 긴 프롬프트와 짧은 응답을 사용하는 워크로드에서 심각한 연산 낭비가 발생함을 설명합니다. 해결책으로 프롬프트를 한 번만 계산하고 이후의 모든 응답을 순차적으로 계산하는 '프롬프트 캐싱' 기법을 제안하며, 이를 학습 과정에 적용하기 위해 인과적 어텐션(causal attention) 문제를 해결할 수 있는 복잡한 구현 방법을 제시합니다. 실제 테스트 결과, 이 기법은 특정 워크로드에서 최대 7.5배의 속도 향상을 보여줍니다.

핵심 포인트

기존 RL 엔진은 프롬프트와 응답을 반복적으로 패킹하여 긴 프롬프트/짧은 응답 워크로드에서 연산 비효율성을 초래합니다.
제안된 '프롬프트 캐싱' 기법은 프롬프트를 한 번만 계산하고 이후의 모든 응답을 순차적으로 처리하여 연산을 최적화합니다.
학습 과정에 이 기법을 적용하기 위해서는 인과적 어텐션(causal attention) 문제를 해결하는 복잡한 구현 트릭이 필요했습니다.
실제 테스트 결과, 16k 프롬프트/64 출력 워크로드에서 최대 7.5배의 속도 향상을 달성할 수 있었습니다.

대부분의 오픈 소스 RL 엔진은 시퀀스를 단순하게 패킹(pack)합니다: 프롬프트(prompt) + 응답(response)을 그룹 내의 모든 샘플에 대해 반복하는 방식입니다. 이는 짧은 프롬프트/긴 완성(completion) 워크로드에는 괜찮지만, 긴 프롬프트/짧은 완성 워크로드에는 비효율적입니다. G=8인 상황에서 1,000-토큰 프롬프트와 100-토큰 응답을 사용할 경우, 고유한 토큰은 1,800개뿐임에도 8,800개의 토큰을 처리하게 됩니다. 약 5배의 연산 낭비가 발생합니다.

해결책은 개념적으로 간단합니다: 프롬프트를 한 번만 계산한 다음, 그 뒤에 오는 모든 G개의 응답을 계산하는 것입니다. 이는 추론(inference) 시의 프리픽스 캐싱(prefix caching)과 유사하지만, 학습(training) 시에는 프롬프트를 통해 그래디언트(gradients)가 역전파되어야 하므로, 단순한 구현 방식으로는 인과적 어텐션(causal attention)이 깨지게 됩니다. 이를 올바르게 구현하기 위해서는 전체 어텐션(full attention) 레이어와 선형 어텐션(linear attention) 레이어에 대해 서로 다른 트릭이 필요했습니다.

댓글에 있는 블로그 포스트에서 이에 대해 자세히 읽어보실 수 있습니다.

Qwen3.5-4B 기준 수치:

16k 프롬프트 / 64 출력 → 7.5배
16k / 128 → 7.3배
16k / 1k → 5.4배
8k / 4k → 1.7배

AI 자동 생성 콘텐츠

원문 바로가기