
GPU의 85%가 대기 시간이었다! MIT의 새로운 수법으로 RL 훈련이 최대 3배 가속화
요약
MIT 연구진이 강화학습(RL) 과정에서 발생하는 GPU 유휴 시간 문제를 해결하는 새로운 기법을 발표했습니다. 답변 길이에 따른 병목 현상을 극복하여 RL 훈련 속도를 최대 3배까지 가속화할 수 있습니다.
핵심 포인트
- 강화학습 롤아웃 단계가 전체 훈련 시간의 약 85%를 차지함
- 답변 길이 차이로 인해 발생하는 GPU 버블(Idle) 현상이 주요 병목
- MIT의 새로운 수법으로 RL 훈련 속도를 최대 3배 가속화 가능
- GRPO 알고리즘 환경에서 긴 추론 체인 생성 시 효율성 증대
🐹 못치 「있잖아 키나코, 요즘 AI는 점점 똑똑해지고 있는데, 대체 뭘 하고 있는 거야?」
🦜 키나코 「좋은 질문이야. DeepSeek-R1이나 Claude 같은 최근의 추론 AI는 강화학습 (RL)으로 단련하고 있어.」
🐹 못치 「강화학습? 그게 뭐야, 어려워 보이는데.」
🦜 키나코 「쉽게 말하면, AI에게 문제를 몇 번이고 풀게 하고, 잘하면 칭찬하고, 틀리면 꾸짖는 거야.」
🐹 못치 「아, 강아지 훈련 같은 느낌? '손' 하면 간식 주는 거 말이야.」
🦜 키나코 「맞아, 바로 그 이미지야. 그런데 사실 그 훈련 중에 GPU가 85%의 시간 동안 그냥 기다리기만 하고 있어.」
🐹 못치 「85%!? 거의 놀고 있는 거잖아! 엄청 아깝잖아!」
🦜 키나코 「응, 아깝지. 하지만 MIT가 그 대기 시간을 거의 제로로 만드는 방법을 찾아냈어. 오늘은 그걸 해설해 줄게.」
🦜 키나코 「사실 DeepSeek-R1이나 Claude 4 같은 추론 LLM은 강화학습 (RL)으로 단련하고 있어.」
🐹 못치 「강화학습? 강아지 교육처럼 좋은 행동을 하면 보상을 주는 거?」
🦜 키나코 「비슷해. RL 훈련은 크게 3가지 단계로 돌아가. 순서대로 설명해 줄게.」
🦜 키나코 「먼저 단계 1은 롤아웃 (Rollout). 모델에게 문제를 주고, 답변을 수십 개 생성하게 하는 거야.」
🐹 못치 「AI가 스스로 답을 내는 거구나. 테스트를 몇 번이고 푸는 느낌?」
🦜 키나코 「맞아. 다음 단계 2는 보상 평가. 정답이면 +1, 오답이면 -1이라고 점수를 매기는 거야.」
🐹 못치 「보상과 벌이네! 햄스터 쳇바퀴 훈련이랑 똑같잖아!」
🦜 키나코 「못치의 경우에는 해바라기 씨가 보상이겠네.」
🦜 키나코 「마지막 단계 3은 정책 업데이트 (Policy Update). 점수를 바탕으로 모델의 파라미터를 조정해서 강하게 만드는 거야.」
🐹 못치 「그렇구나. 문제를 풀고, 채점하고, 복습하는 느낌이네.」
🦜 키나코 「응. 이 3단계를 수만 번 반복해서 똑똑하게 만드는 게 RL 훈련이야.」
🐹 못치 「그래서 DeepSeek-R1은 수학 난제를 엄청 잘하게 된 거구나.」
🦜 키나코 「하지만 말이야, 이 훈련 프로세스에는 엄청난 병목 현상 (Bottleneck)이 숨어 있어.」
🐹 못치 「병목 현상? 아까 그 3단계 중 어디에 문제가 있는 거야?」
🦜 키나코 「단계 1인 롤아웃 (Rollout)이야. 이건 게임 대전에서 수만 판을 시도하는 것과 같아.」
🐹 못치 「수만 판!? 그러니 시간이 걸리겠지.」
🦜 키나코 「게다가 요즘 주류 알고리즘은 GRPO, 즉 그룹 상대적 정책 최적화 (Group Relative Policy Optimization)라는 것이야.」
🐹 못치 「길어! 그냥 GRPO라고 해!」
🦜 키나코 「GRPO에서는 한 문제에 대해 그룹으로 여러 답변을 생성하기 때문에, 롤아웃 (Rollout)의 양이 방대해져.」
🦜 키나코 「DeepSeek-R1도 GRPO를 사용해서 수학·코딩 문제를 반복해서 풀게 하고 있어.」
🐹 못치 「그 DeepSeek-R1의 뒷모습이 그거였구나! 왠지 친숙하게 느껴져.」
🦜 키나코 「아까 말한 단계 1, 롤아웃 (Rollout). 이게 전체 훈련 시간의 약 85%를 차지해.」
🐹 못치 「85%!? 거의 롤아웃이잖아! 훈련인데 훈련하지 않는 시간이 대부분이라니!」
🦜 키나코 「문제는 답변의 길이가 제각각이라는 거야. 짧은 답변은 1,000 토큰 정도야.」
🦜 키나코 「하지만 긴 추론 체인 (Reasoning Chain)의 경우, 65,000 토큰을 넘는 경우도 있어.」
🐹 못치 「65,000 토큰? 책 한 권 정도의 길이잖아.」
🦜 키나코 「여기가 문제의 핵심이야. 모든 GPU가 가장 긴 답변이 완료될 때까지 기다려야만 해.」
🐹 못치 「아, 제일 느린 애를 모두가 기다려 주는 느낌인가. 급식 당번 때 흔히 있는 일 같은 거.」
🦜 키나코 「맞아. 빨리 끝난 GPU는 계속 유휴 상태 (Idle)로 기다리기만 해. 이걸 GPU 버블 (GPU Bubble) 시간이라고 불러.」
🦜 키나코 「SortedRL 논문에 따르면, 이 버블 비율이 최대 74%에 달한다고 보고되어 있어.」
🐹 못치 「74%가 버블? 4분의 3이 낭비라니, 이건 정말 너무 아깝잖아!」
🦜 키나코 「게다가 이건 대규모 현장에서는 더 심각해.」
🦜 키나코 「ByteDance의 실제 환경에서는 128개의 GPU로 1회 훈련 단계에 약 40분이 걸렸다고 해.」
🐹 못치 「128대의 GPU가 40분 동안 겨우 한 걸음이라니, 전기세 엄청나겠다.」
🦜 키나코 「기존의 수법들도 몇 가지 있지만, 완전히 해결하지는 못했어.」
🦜 키나코 「예를 들어 SortedRL이라는 수법은 답변을 길이 순으로 정렬해서 버블을 줄이려고 시도해.」
🐹 못치 「순서를 바꾸는 것만으로 빨라진다고? 왠지 심플하네.」
🦜 키나코: 하지만 근본적인 해결책은 아니야. 재배열해도 유휴 시간(idle time)은 남아버리니까.
🦜 키나코: 유휴 시간은 남는다. 그래서 더 근본적인 해결이 필요했던 거야.
🐹 똬치: 다들 어려움을 겪었구나. 그래서 누가 해결책을 찾았어?
🦜 키나코: 응. MIT 연구팀이 이 문제를 해결하는 획기적인 발표를 했어.
🐹 똬치: 에? MIT!? 그 천재들이 모이는 MIT!? 대단하다!
🦜 키나코: 정확히는 MIT Han Lab, Song Han 교수님의 그룹이야. 논문 제목은 영어로 길지만,
🦜 키나코: '롱테일을 제압한다'라는 의미로, 긴 답변이 야기하는 병목 현상을 해소한다는 내용이야.
🦜 키나코: 이 논문은 ASPLOS 2026, 컴퓨터 아키텍처 분야의 최고 학회에서 발표될 예정이야.
🐹 똬치: 2026년 학회!? 아직 멀었는데 지금 소개하다니, 이 채널은 선행 학습 중이네!
🦜 키나코: 오늘은 그 논문을 함께 분석해 볼게. RL 훈련의 메커니즘부터 시작할게. 준비됐어?
🐹 똬치: 응, 완벽하게! 계속 말해줘!
🦜 키나코: 자, 여기서부터가 TLT의 천재적인 부분이야. 대기 중인 GPU에 다른 일을 시키는 거야.
🐹 똬치: 기다리는 동안 부업을 하는 건가! 그거 엄청 똑똑한데!
🦜 키나코: 맞아. 대기 중인 GPU로 '드래프터 모델(draftor model)'이라는 경량 모델을 훈련하는 거지.
🐹 똬치: 드래프터 모델? 그게 뭐야, 초안을 쓰는 모델 같은 거야?
🦜 키나코: 좋은 추측이야. 큰 모델이 다음 토큰을 생성하기 전에 미리 몇 개의 토큰을 예측하는 작은 모델이야.
🦜 키나코: 구조는 단지 1층의 디코더 블록으로 되어 있고, 타겟 모델의 임베딩(Embedding)과 LM Head를 공유하고 있어서 매우 가벼워.
🐹 똬치: 큰 모델이 한 문제씩 신중하게 푸는 동안, 작은 것이 먼저 답을 써버리는 느낌이야?
🦜 키나코: 그런 느낌이지. 예를 들어 Qwen2.5-32B 본체는 60층 이상 있지만, 드래프터는 단지 1층만 돼.
🦜 키나코: 0.5B 모델보다 2.4배 빠르게 추론할 수 있어.
🐹 똬치: 그런데 말이야, 그 드래프터를 훈련하는 데 추가 비용이 들지 않아?
🦜 키나코: 그게 제로야. GPU가 유휴 상태, 즉 아무것도 하지 않는 시간이 일정 임계치를 넘으면,
🦜 키나코: 자동으로 드래프터 훈련 모드로 전환되는 거야.
🦜 키나코: 훈련 데이터도 Online DataBuffer에서 가져오기 때문에 새로운 데이터를 준비할 필요도 없어.
🐹 똬치: 공짜로 빨라지다니, 그거 마법 아니야!
🦜 키나코: 마법이 아니라 기발한 아이디어야. 논문의 저자인 Qinghao Hu 씨도 '유휴 시간을 속도 향상으로 변환한다'라고 표현하고 있어.
🦜 키나코: 게다가 더 흥미로운 점은, n-gram 리트리벌(n-gram retrieval)이라는 메커니즘을 병용한다는 거야.
🦜 키나코: 수식이나 코드는 반복 패턴이 많잖아? 그걸 파라미터 없이 예측할 수 있는 거지.
🦜 키나코: 핵심은 드래프터와 n-gram 리트리벌이 완전히 다른 강점을 가지고 있다는 점이야.
🐹 똬치: 다른 강점? 그게 무슨 뜻이야?
🦜 키나코: 드래프터는 신경망(Neural Network)이라서 문맥을 이해하고 다음에 올 단어를 예측하는 거야.
🦜 키나코: 반면 n-gram은 과거에 나왔던 반복 패턴을 그대로 활용하는 거지.
🐹 똬치: 두뇌파와 기억파의 시너지 효과라는 건가! 최강 조합이네!
🦜 키나코: 그럼, 왜 드래프터가 빠르게 만들까. 여기서 '투기적 디코드(speculative decode)'라는 기술을 설명할게.
🐹 똬치: 투기적 디코드? 뭔가 도박 같은 이름이네.
🦜 키나코: 원리는 간단해. 작은 드래프터가 5개에서 10개 정도 앞의 토큰을 한꺼번에 예측하고,
🦜 키나코: 큰 타겟 모델이 일괄적으로 검토하는 거야.
🐹 똬치: 미리 예상 답안을 적어놓고, 선생님이 모아서 채점하는 느낌인가!
🦜 키나코: 맞아, 바로 그 이미지. 정답이라면 그 토큰들은 전부 그대로 채택돼.
🦜 키나코: 오답이 발견되는 순간, 타겟 모델이 올바른 토큰을 출력하는 거지.
🐹 똬치: 그런데 말이야, 빨라져도 출력 품질이 떨어지면 의미가 없잖아?
🦜 키나코: 그게 투기적 디코드의 대단한 점이야. 수학적으로 증명되어 있어서,
🦜 키나코: 출력 확률 분포는 타겟 모델과 완전히 동일해. 즉, 손실(loss)이 없고 정확도 저하가 없어.
🐹 똬치: 빨라지면서 품질까지 떨어지지 않는다니 최고잖아!
🦜 키나코「TLT에는 Adaptive Rollout Engine이라는 메커니즘이 더 있어서,」
🦜 키나코「남은 요청이 32개 이하가 되는 시점에서 자동으로 투기적 디코딩 (Speculative Decoding)을 활성화해.」
🐹 못치「종반부에만 가속 모드로 전환한다는 뜻이야?」
🦜 키나코「맞아. 롱테일 (Long-tail) 부분, 즉 처리가 길어지는 마지막 부분에만 집중적으로 투기적 디코딩을 사용하기 때문에 효율적이야.」
🦜 키나코「게다가 훈련 중에 드래프터 (Drafter)가 지속적으로 업데이트되기 때문에,」
🦜 키나코「오래된 드래프터가 발목을 잡는, 이른바 stale drafter 문제도 발생하지 않아.」
🦜 키나코「그리고 드래프터의 훈련에는 Eagle 아키텍처라는 것을 사용하고 있어.」
🐹 못치「이글? 독수리 말하는 거야? 뭔가 멋진 이름이네.」
🦜 키나코「응, 독수리 이름이야. 층이 하나뿐인데도 가볍고 빠르니까, 정말 독수리 같지?」
🐹 못치「내 햄스터 쳇바퀴에도 이름을 붙여줄까. 스프린터호!」
🦜 키나코「조금 다른 느낌이지만... 뭐, 됐어. 투기적 디코딩에 대해 정리할게.」
🦜 키나코「그럼 실제로 얼마나 빨라졌는지 구체적인 숫자를 살펴봅시다.」
🦜 키나코「먼저, Qwen2.5의 7B 모델을 H100 GPU에서 돌렸을 때 약 1.7배의 속도 향상.」
🦜 키나코「게다가 32B의 더 큰 모델이 되면 약 2.0배에서 2.1배. 엔드투엔드 (End-to-end) 기준으로 이 수치야.」
🐹 못치「2배!? 같은 시간 동안 두 배의 트레이닝을 할 수 있다는 거야!? 진짜 대박이다!」
🦜 키나코「MIT News에서는 '70%에서 210%의 가속화'라고 보도했지만, 이건 모델의 크기나 설정에 따라 차이가 있기 때문이야.」
🦜 키나코「롤아웃 (Rollout) 부분에만 집중하면 최대 2.44배,」
🦜 키나코「투기적 디코딩 단독 마이크로 벤치마크 (Micro-benchmark)로는 최대 3.65배까지도 나와.」
🐹 못치「근데 말이야, 빨라진 만큼 정확도가 떨어지거나 하지는 않아? 대충 해서 빨라진 것뿐이라거나.」
🦜 키나코「그게 가장 중요한 포인트인데, 완전히 로스리스 (Lossless)야. 정확도 저하는 제로야.」
🦜 키나코「논문의 Figure 12를 보면, 기존의 VeRL 프레임워크와 TLT의 보상 곡선이 딱 겹쳐 있어.」
🦜 키나코「수학적으로 동일한 결과가 나온다는 뜻이지.」
🐹 못치「오오, 그렇다면 안심이네. 빨라지기만 했을 뿐 질은 변하지 않는구나.」
🦜 키나코「게다가 기쁜 부수 효과가 있어. 훈련 중에 계속 단련했던 드래프터 모델, 있잖아?」
🐹 못치「응, 아까 말한 작은 모델 말이지? 초안 담당하는.」
🦜 키나코「이게 그대로 추론 시의 가속화에도 쓰일 수 있어. 평균적으로 6.53 토큰이나 한 번에 수락되기 때문에, 실제 운용 속도도 올라가. 일석이조지.」
🦜 키나코「심지어 학습된 드래프터 모델은 HuggingFace에 공개되어 있어.」
🦜 키나코「Qwen2.5-7B-Eagle-RL과 Qwen2.5-32B-Eagle-RL 두 종류야.」
🦜 키나코「실제 RL 훈련 벤치마크에서, ByteDance의 128 GPU 환경에서도 대폭적인 개선이 확인되었어.」
🐹 못치「ByteDance라면, 그 TikTok 만드는 회사? 거기도 쓰고 있는 거야!?」
🦜 키나코「응. 산업계에서의 실용성도 증명되었다는 뜻이야.」
🐹 못치「대학 연구가 바로 산업계에서도 쓰이다니, 정말 최전선의 기술이구나.」
🦜 키나코「참고로, 이것은 VeRL이라는 RL 훈련 프레임워크를 기반으로 한 벤치마크 결과야.」
🐹 못치「VeRL? 그게 무슨 약자야?」
🦜 키나코「ByteDance가 공개한 분산 RL 훈련 프레임워크, Volcano Engine RL의 약자야.」
🐹 못치「ByteDance가 또 나왔네! TikTok 하는 곳이잖아.」
🦜 키나코「여기서부터는 이 기술이 세상에 어떤 임팩트를 줄지 생각해 봅시다.」
🦜 키나코「먼저, AI 트레이닝 비용이 어느 정도인지 알아?」
🐹 못치「음, 엄청 비쌀 것 같다는 이미지는 있는데, 구체적으로는 잘 모르겠어.」
🦜 키나코「예를 들어, 2024년에 화제가 되었던 DeepSeek-R1의 베이스가 된 V3 모델.」
🦜 키나코「그 모델의 학습 비용은 공식 발표에서 약 560만 달러, 일본 엔화로 8억 엔 이상으로 알려져 있어.」
🐹 못치「하, 8억!? 내 해바라기 씨가 몇 년 치냐고!」
🦜 키나코「하지만 말이야, TLT를 사용해서 엔드투엔드로 2배 빨라진다는 것은, 같은 성능의 모델을 절반의 계산 시간으로 훈련할 수 있다는 뜻이야.」
🦜 키나코「즉, 약 50%의 비용 절감이야. 560만 달러의 사례라면 280만 달러, 약 4억 엔 분량의 GPU 비용을 아낄 수 있다는 계산이 나와.」
🐹 못치「4억 엔이나 아낀다고? 그건 이미 혁명 수준이잖아!」
🦜 키나코「이 의미는 매우 커. 지금까지 대기업만이 손댈 수 있었던 프론티어 모델 (Frontier Model)의 훈련이,」
🦜 키나코「대학 연구실이나 스타트업에게도 현실적인 영역이 된다는 뜻이니까.」
🐹 못치「헤에, 그럼 작은 팀이라도 엄청난 AI를 만들 수 있게 된다는 거야?」
🦜 키나코「맞아. MIT News에서도 금융 트렌드 예측이나 전력망 리스크 탐지 같은 실질적인 응용 사례를 소개했었어.」
🦜 키나코「다양한 분야에서 추론 능력을 단련한 AI가 활약할 시대가 다가오고 있어.」
🦜 키나코「그리고 무엇보다, TLT의 코드는 Apache 2.0 라이선스로 GitHub에 공개되어 있어. 누구나 지금 바로 사용할 수 있는 오픈 소스 (Open Source)야.」
🐹 못치「오픈 소스! MIT 정말 통이 크네! 나도 써보고 싶다!」
🦜 키나코「TLT가 정말 중요한 이유는 말이야, 모델의 품질을 전혀 떨어뜨리지 않으면서 훈련 비용을 낮출 수 있다는 점이야.」
🦜 키나코「DeepMind나 OpenAI, Meta뿐만 아니라,」
🦜 키나코「일본의 연구 기관이나 스타트업에게도 혜택이 돌아갈 거야.」
🐹 못치「이거 일본의 AI 연구에도 영향을 주는 거냐! GPU 비용을 아끼면 그만큼 간식을 더 살 수 있잖아!」
🦜 키나코「코드는 GitHub에 공개되어 있으니까, 오늘부터 누구나 사용을 시작할 수 있어.」
🦜 키나코「앞으로 몇 달 안에 VeRL이나 OpenRLHF 같은 주요 RL 훈련 프레임워크 (Framework)로의 통합도 기대되고 있어.」
🐹 못치「그럼 그 프레임워크를 쓰는 사람들은 전부 혜택을 볼 수 있다는 거야?」
🦜 키나코「그렇지. 그래서 TLT는 향후 AI 연구의 표준 도구가 될 가능성이 높아.」
🐹 못치「대단한데! 나도 AI 연구자가 되어서 능숙하게 다뤄보고 싶다! 간식 최적화에 써먹어야지!"
🦜 키나코「해바라기 씨의 최적 배분에 강화학습 (RL)은 필요 없을 것 같은데..."
🐹 못치「자, 그럼 오늘 이야기를 정리해 볼까?」
🦜 키나코「포인트는 세 가지야. 우선, 강화학습 훈련에서는 롤아웃 (Rollout)이 전체 처리의 85%를 차지하고 있어서,」
🦜 키나코「GPU가 아무것도 못 하고 기다리게 되는 버블 문제가 심각했다는 것.」
🦜 키나코「두 번째, TLT는 그 유휴 (Idle) 상태의 GPU로 드래프터 모델 (Draft Model)을 훈련해서,」
🦜 키나코「투기적 디코딩 (Speculative Decoding)을 통해 생성을 70%에서 210%까지 가속화했다는 것.」
🦜 키나코「세 번째, 이것이 완전히 로스리스 (Lossless)라는 점이야. 훈련 결과의 품질은 전혀 떨어지지 않고,」
🦜 키나코「부수적인 결과물로 만들어진 드래프터 모델은 추론 (Inference)에도 사용할 수 있어. 일석이조지.」
🐹 못치「요컨대, 대기 시간을 멍하니 보내지 말고 유효하게 활용하라는 거구나!"
🦜 키나코「맞아. 유휴 시간을 가치로 바꾼다는 발상의 전환이 대단한 거야.」
🦜 키나코「남는 리소스를 그냥 놀리지 않는다는 생각은 다른 분야에도 응용할 수 있을 것 같아.」
🐹 못치「주인님도 일하는 틈틈이 이 채널을 보면 좋을 텐데. 아, 애초에 우리가 채널을 운영하고 있다는 걸 모르려나?"
🦜 키나코「AI 훈련 기술은 계속 진화하고 있으니까, 앞으로도 이 채널에서 최신 정보를 계속 따라가 볼게.」
🐹 못치「맞아! 모두가 Super Thanks로 후원해 주면 내 해바라기 씨 값이 될 텐데 말이야!"
🦜 키나코「못치, 그건 아직 일러. 우선은 모두가 즐겁게 보는 게 먼저야.」
🦜 키나코「다음에는 AI 추론 가속화에 대해 또 다른 관점으로 깊이 있게 다뤄볼 예정이야. 기대해 줘."
키나코 못치의 테크 심층 분석 에서는, AI/LLM을 중심으로 한 테크 전반을 햄스터(🐹 못치)와 세키세이인코(🦜 키나코)의 대화로 즐겁게 해설하고 있습니다.
▶️ 영상으로 보기 → GPU의 85%가 대기 시간이었다! MIT 신기술로 RL 훈련이 최대 3배 가속화
👍 이 글이 도움이 되었다면 LGTM·북마크를 해주시면 큰 힘이 됩니다!
📺 채널 구독하기 → 키나코 못치의 테크 심층 분석
🔗 다른 해설 영상 보기 → 키나코 못치의 테크 심층 분석 영상 목록
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기