GPU의 85%가 대기 시간이었다! MIT의 새로운 수법으로 RL 훈련이 최대 3배 가속화

🐹 못치 「있잖아 키나코, 요즘 AI는 점점 똑똑해지고 있는데, 대체 뭘 하고 있는 거야?」

🦜 키나코 「좋은 질문이야. DeepSeek-R1이나 Claude 같은 최근의 추론 AI는 강화학습 (RL)으로 단련하고 있어.」

🐹 못치 「강화학습? 그게 뭐야, 어려워 보이는데.」

🦜 키나코 「쉽게 말하면, AI에게 문제를 몇 번이고 풀게 하고, 잘하면 칭찬하고, 틀리면 꾸짖는 거야.」

🐹 못치 「아, 강아지 훈련 같은 느낌? '손' 하면 간식 주는 거 말이야.」

🦜 키나코 「맞아, 바로 그 이미지야. 그런데 사실 그 훈련 중에 GPU가 85%의 시간 동안 그냥 기다리기만 하고 있어.」

🐹 못치 「85%!? 거의 놀고 있는 거잖아! 엄청 아깝잖아!」

🦜 키나코 「응, 아깝지. 하지만 MIT가 그 대기 시간을 거의 제로로 만드는 방법을 찾아냈어. 오늘은 그걸 해설해 줄게.」

🦜 키나코 「사실 DeepSeek-R1이나 Claude 4 같은 추론 LLM은 강화학습 (RL)으로 단련하고 있어.」

🐹 못치 「강화학습? 강아지 교육처럼 좋은 행동을 하면 보상을 주는 거?」

🦜 키나코 「비슷해. RL 훈련은 크게 3가지 단계로 돌아가. 순서대로 설명해 줄게.」

🦜 키나코 「먼저 단계 1은 롤아웃 (Rollout). 모델에게 문제를 주고, 답변을 수십 개 생성하게 하는 거야.」

🐹 못치 「AI가 스스로 답을 내는 거구나. 테스트를 몇 번이고 푸는 느낌?」

🦜 키나코 「맞아. 다음 단계 2는 보상 평가. 정답이면 +1, 오답이면 -1이라고 점수를 매기는 거야.」

🐹 못치 「보상과 벌이네! 햄스터 쳇바퀴 훈련이랑 똑같잖아!」

🦜 키나코 「못치의 경우에는 해바라기 씨가 보상이겠네.」

🦜 키나코 「마지막 단계 3은 정책 업데이트 (Policy Update). 점수를 바탕으로 모델의 파라미터를 조정해서 강하게 만드는 거야.」

🐹 못치 「그렇구나. 문제를 풀고, 채점하고, 복습하는 느낌이네.」

🦜 키나코 「응. 이 3단계를 수만 번 반복해서 똑똑하게 만드는 게 RL 훈련이야.」

🐹 못치 「그래서 DeepSeek-R1은 수학 난제를 엄청 잘하게 된 거구나.」

🦜 키나코 「하지만 말이야, 이 훈련 프로세스에는 엄청난 병목 현상 (Bottleneck)이 숨어 있어.」

🐹 못치 「병목 현상? 아까 그 3단계 중 어디에 문제가 있는 거야?」

🦜 키나코 「단계 1인 롤아웃 (Rollout)이야. 이건 게임 대전에서 수만 판을 시도하는 것과 같아.」

🐹 못치 「수만 판!? 그러니 시간이 걸리겠지.」

🦜 키나코 「게다가 요즘 주류 알고리즘은 GRPO, 즉 그룹 상대적 정책 최적화 (Group Relative Policy Optimization)라는 것이야.」

🐹 못치 「길어! 그냥 GRPO라고 해!」

🦜 키나코 「GRPO에서는 한 문제에 대해 그룹으로 여러 답변을 생성하기 때문에, 롤아웃 (Rollout)의 양이 방대해져.」

🦜 키나코 「DeepSeek-R1도 GRPO를 사용해서 수학·코딩 문제를 반복해서 풀게 하고 있어.」

🐹 못치 「그 DeepSeek-R1의 뒷모습이 그거였구나! 왠지 친숙하게 느껴져.」

🦜 키나코 「아까 말한 단계 1, 롤아웃 (Rollout). 이게 전체 훈련 시간의 약 85%를 차지해.」

🐹 못치 「85%!? 거의 롤아웃이잖아! 훈련인데 훈련하지 않는 시간이 대부분이라니!」

🦜 키나코 「문제는 답변의 길이가 제각각이라는 거야. 짧은 답변은 1,000 토큰 정도야.」

🦜 키나코 「하지만 긴 추론 체인 (Reasoning Chain)의 경우, 65,000 토큰을 넘는 경우도 있어.」

🐹 못치 「65,000 토큰? 책 한 권 정도의 길이잖아.」

🦜 키나코 「여기가 문제의 핵심이야. 모든 GPU가 가장 긴 답변이 완료될 때까지 기다려야만 해.」

🐹 못치 「아, 제일 느린 애를 모두가 기다려 주는 느낌인가. 급식 당번 때 흔히 있는 일 같은 거.」

🦜 키나코 「맞아. 빨리 끝난 GPU는 계속 유휴 상태 (Idle)로 기다리기만 해. 이걸 GPU 버블 (GPU Bubble) 시간이라고 불러.」

🦜 키나코 「SortedRL 논문에 따르면, 이 버블 비율이 최대 74%에 달한다고 보고되어 있어.」

🐹 못치 「74%가 버블? 4분의 3이 낭비라니, 이건 정말 너무 아깝잖아!」

🦜 키나코 「게다가 이건 대규모 현장에서는 더 심각해.」

🦜 키나코 「ByteDance의 실제 환경에서는 128개의 GPU로 1회 훈련 단계에 약 40분이 걸렸다고 해.」

🐹 못치 「128대의 GPU가 40분 동안 겨우 한 걸음이라니, 전기세 엄청나겠다.」

🦜 키나코 「기존의 수법들도 몇 가지 있지만, 완전히 해결하지는 못했어.」

🦜 키나코 「예를 들어 SortedRL이라는 수법은 답변을 길이 순으로 정렬해서 버블을 줄이려고 시도해.」

🐹 못치 「순서를 바꾸는 것만으로 빨라진다고? 왠지 심플하네.」

🦜 키나코: 하지만 근본적인 해결책은 아니야. 재배열해도 유휴 시간(idle time)은 남아버리니까.

🦜 키나코: 유휴 시간은 남는다. 그래서 더 근본적인 해결이 필요했던 거야.

🐹 똬치: 다들 어려움을 겪었구나. 그래서 누가 해결책을 찾았어?

🦜 키나코: 응. MIT 연구팀이 이 문제를 해결하는 획기적인 발표를 했어.

🐹 똬치: 에? MIT!? 그 천재들이 모이는 MIT!? 대단하다!

🦜 키나코: 정확히는 MIT Han Lab, Song Han 교수님의 그룹이야. 논문 제목은 영어로 길지만,

🦜 키나코: '롱테일을 제압한다'라는 의미로, 긴 답변이 야기하는 병목 현상을 해소한다는 내용이야.

🦜 키나코: 이 논문은 ASPLOS 2026, 컴퓨터 아키텍처 분야의 최고 학회에서 발표될 예정이야.

🐹 똬치: 2026년 학회!? 아직 멀었는데 지금 소개하다니, 이 채널은 선행 학습 중이네!

🦜 키나코: 오늘은 그 논문을 함께 분석해 볼게. RL 훈련의 메커니즘부터 시작할게. 준비됐어?

🐹 똬치: 응, 완벽하게! 계속 말해줘!

🦜 키나코: 자, 여기서부터가 TLT의 천재적인 부분이야. 대기 중인 GPU에 다른 일을 시키는 거야.

🐹 똬치: 기다리는 동안 부업을 하는 건가! 그거 엄청 똑똑한데!

🦜 키나코: 맞아. 대기 중인 GPU로 '드래프터 모델(draftor model)'이라는 경량 모델을 훈련하는 거지.

🐹 똬치: 드래프터 모델? 그게 뭐야, 초안을 쓰는 모델 같은 거야?

🦜 키나코: 좋은 추측이야. 큰 모델이 다음 토큰을 생성하기 전에 미리 몇 개의 토큰을 예측하는 작은 모델이야.

🦜 키나코: 구조는 단지 1층의 디코더 블록으로 되어 있고, 타겟 모델의 임베딩(Embedding)과 LM Head를 공유하고 있어서 매우 가벼워.

🐹 똬치: 큰 모델이 한 문제씩 신중하게 푸는 동안, 작은 것이 먼저 답을 써버리는 느낌이야?

🦜 키나코: 그런 느낌이지. 예를 들어 Qwen2.5-32B 본체는 60층 이상 있지만, 드래프터는 단지 1층만 돼.

🦜 키나코: 0.5B 모델보다 2.4배 빠르게 추론할 수 있어.

🐹 똬치: 그런데 말이야, 그 드래프터를 훈련하는 데 추가 비용이 들지 않아?

🦜 키나코: 그게 제로야. GPU가 유휴 상태, 즉 아무것도 하지 않는 시간이 일정 임계치를 넘으면,

🦜 키나코: 자동으로 드래프터 훈련 모드로 전환되는 거야.

🦜 키나코: 훈련 데이터도 Online DataBuffer에서 가져오기 때문에 새로운 데이터를 준비할 필요도 없어.

🐹 똬치: 공짜로 빨라지다니, 그거 마법 아니야!

🦜 키나코: 마법이 아니라 기발한 아이디어야. 논문의 저자인 Qinghao Hu 씨도 '유휴 시간을 속도 향상으로 변환한다'라고 표현하고 있어.

🦜 키나코: 게다가 더 흥미로운 점은, n-gram 리트리벌(n-gram retrieval)이라는 메커니즘을 병용한다는 거야.

🦜 키나코: 수식이나 코드는 반복 패턴이 많잖아? 그걸 파라미터 없이 예측할 수 있는 거지.

🦜 키나코: 핵심은 드래프터와 n-gram 리트리벌이 완전히 다른 강점을 가지고 있다는 점이야.

🐹 똬치: 다른 강점? 그게 무슨 뜻이야?

🦜 키나코: 드래프터는 신경망(Neural Network)이라서 문맥을 이해하고 다음에 올 단어를 예측하는 거야.

🦜 키나코: 반면 n-gram은 과거에 나왔던 반복 패턴을 그대로 활용하는 거지.

🐹 똬치: 두뇌파와 기억파의 시너지 효과라는 건가! 최강 조합이네!

🦜 키나코: 그럼, 왜 드래프터가 빠르게 만들까. 여기서 '투기적 디코드(speculative decode)'라는 기술을 설명할게.

🐹 똬치: 투기적 디코드? 뭔가 도박 같은 이름이네.

🦜 키나코: 원리는 간단해. 작은 드래프터가 5개에서 10개 정도 앞의 토큰을 한꺼번에 예측하고,

🦜 키나코: 큰 타겟 모델이 일괄적으로 검토하는 거야.

🐹 똬치: 미리 예상 답안을 적어놓고, 선생님이 모아서 채점하는 느낌인가!

🦜 키나코: 맞아, 바로 그 이미지. 정답이라면 그 토큰들은 전부 그대로 채택돼.

🦜 키나코: 오답이 발견되는 순간, 타겟 모델이 올바른 토큰을 출력하는 거지.

🐹 똬치: 그런데 말이야, 빨라져도 출력 품질이 떨어지면 의미가 없잖아?

🦜 키나코: 그게 투기적 디코드의 대단한 점이야. 수학적으로 증명되어 있어서,

🦜 키나코: 출력 확률 분포는 타겟 모델과 완전히 동일해. 즉, 손실(loss)이 없고 정확도 저하가 없어.

🐹 똬치: 빨라지면서 품질까지 떨어지지 않는다니 최고잖아!

🦜 키나코「TLT에는 Adaptive Rollout Engine이라는 메커니즘이 더 있어서,」

🦜 키나코「남은 요청이 32개 이하가 되는 시점에서 자동으로 투기적 디코딩 (Speculative Decoding)을 활성화해.」

🐹 못치「종반부에만 가속 모드로 전환한다는 뜻이야?」

🦜 키나코「맞아. 롱테일 (Long-tail) 부분, 즉 처리가 길어지는 마지막 부분에만 집중적으로 투기적 디코딩을 사용하기 때문에 효율적이야.」

🦜 키나코「게다가 훈련 중에 드래프터 (Drafter)가 지속적으로 업데이트되기 때문에,」

🦜 키나코「오래된 드래프터가 발목을 잡는, 이른바 stale drafter 문제도 발생하지 않아.」

🦜 키나코「그리고 드래프터의 훈련에는 Eagle 아키텍처라는 것을 사용하고 있어.」

🐹 못치「이글? 독수리 말하는 거야? 뭔가 멋진 이름이네.」

🦜 키나코「응, 독수리 이름이야. 층이 하나뿐인데도 가볍고 빠르니까, 정말 독수리 같지?」

🐹 못치「내 햄스터 쳇바퀴에도 이름을 붙여줄까. 스프린터호!」

🦜 키나코「조금 다른 느낌이지만... 뭐, 됐어. 투기적 디코딩에 대해 정리할게.」

🦜 키나코「그럼 실제로 얼마나 빨라졌는지 구체적인 숫자를 살펴봅시다.」

🦜 키나코「먼저, Qwen2.5의 7B 모델을 H100 GPU에서 돌렸을 때 약 1.7배의 속도 향상.」

🦜 키나코「게다가 32B의 더 큰 모델이 되면 약 2.0배에서 2.1배. 엔드투엔드 (End-to-end) 기준으로 이 수치야.」

🐹 못치「2배!? 같은 시간 동안 두 배의 트레이닝을 할 수 있다는 거야!? 진짜 대박이다!」

🦜 키나코「MIT News에서는 '70%에서 210%의 가속화'라고 보도했지만, 이건 모델의 크기나 설정에 따라 차이가 있기 때문이야.」

🦜 키나코「롤아웃 (Rollout) 부분에만 집중하면 최대 2.44배,」

🦜 키나코「투기적 디코딩 단독 마이크로 벤치마크 (Micro-benchmark)로는 최대 3.65배까지도 나와.」

🐹 못치「근데 말이야, 빨라진 만큼 정확도가 떨어지거나 하지는 않아? 대충 해서 빨라진 것뿐이라거나.」

🦜 키나코「그게 가장 중요한 포인트인데, 완전히 로스리스 (Lossless)야. 정확도 저하는 제로야.」

🦜 키나코「논문의 Figure 12를 보면, 기존의 VeRL 프레임워크와 TLT의 보상 곡선이 딱 겹쳐 있어.」

🦜 키나코「수학적으로 동일한 결과가 나온다는 뜻이지.」

🐹 못치「오오, 그렇다면 안심이네. 빨라지기만 했을 뿐 질은 변하지 않는구나.」

🦜 키나코「게다가 기쁜 부수 효과가 있어. 훈련 중에 계속 단련했던 드래프터 모델, 있잖아?」

🐹 못치「응, 아까 말한 작은 모델 말이지? 초안 담당하는.」

🦜 키나코「이게 그대로 추론 시의 가속화에도 쓰일 수 있어. 평균적으로 6.53 토큰이나 한 번에 수락되기 때문에, 실제 운용 속도도 올라가. 일석이조지.」

🦜 키나코「심지어 학습된 드래프터 모델은 HuggingFace에 공개되어 있어.」

🦜 키나코「Qwen2.5-7B-Eagle-RL과 Qwen2.5-32B-Eagle-RL 두 종류야.」

🦜 키나코「실제 RL 훈련 벤치마크에서, ByteDance의 128 GPU 환경에서도 대폭적인 개선이 확인되었어.」

🐹 못치「ByteDance라면, 그 TikTok 만드는 회사? 거기도 쓰고 있는 거야!?」

🦜 키나코「응. 산업계에서의 실용성도 증명되었다는 뜻이야.」

🐹 못치「대학 연구가 바로 산업계에서도 쓰이다니, 정말 최전선의 기술이구나.」

🦜 키나코「참고로, 이것은 VeRL이라는 RL 훈련 프레임워크를 기반으로 한 벤치마크 결과야.」

🐹 못치「VeRL? 그게 무슨 약자야?」

🦜 키나코「ByteDance가 공개한 분산 RL 훈련 프레임워크, Volcano Engine RL의 약자야.」

🐹 못치「ByteDance가 또 나왔네! TikTok 하는 곳이잖아.」

🦜 키나코「여기서부터는 이 기술이 세상에 어떤 임팩트를 줄지 생각해 봅시다.」

🦜 키나코「먼저, AI 트레이닝 비용이 어느 정도인지 알아?」

🐹 못치「음, 엄청 비쌀 것 같다는 이미지는 있는데, 구체적으로는 잘 모르겠어.」

🦜 키나코「예를 들어, 2024년에 화제가 되었던 DeepSeek-R1의 베이스가 된 V3 모델.」

🦜 키나코「그 모델의 학습 비용은 공식 발표에서 약 560만 달러, 일본 엔화로 8억 엔 이상으로 알려져 있어.」

🐹 못치「하, 8억!? 내 해바라기 씨가 몇 년 치냐고!」

🦜 키나코「하지만 말이야, TLT를 사용해서 엔드투엔드로 2배 빨라진다는 것은, 같은 성능의 모델을 절반의 계산 시간으로 훈련할 수 있다는 뜻이야.」

🦜 키나코「즉, 약 50%의 비용 절감이야. 560만 달러의 사례라면 280만 달러, 약 4억 엔 분량의 GPU 비용을 아낄 수 있다는 계산이 나와.」

🐹 못치「4억 엔이나 아낀다고? 그건 이미 혁명 수준이잖아!」

🦜 키나코「이 의미는 매우 커. 지금까지 대기업만이 손댈 수 있었던 프론티어 모델 (Frontier Model)의 훈련이,」

🦜 키나코「대학 연구실이나 스타트업에게도 현실적인 영역이 된다는 뜻이니까.」

🐹 못치「헤에, 그럼 작은 팀이라도 엄청난 AI를 만들 수 있게 된다는 거야?」

🦜 키나코「맞아. MIT News에서도 금융 트렌드 예측이나 전력망 리스크 탐지 같은 실질적인 응용 사례를 소개했었어.」

🦜 키나코「다양한 분야에서 추론 능력을 단련한 AI가 활약할 시대가 다가오고 있어.」

🦜 키나코「그리고 무엇보다, TLT의 코드는 Apache 2.0 라이선스로 GitHub에 공개되어 있어. 누구나 지금 바로 사용할 수 있는 오픈 소스 (Open Source)야.」

🐹 못치「오픈 소스! MIT 정말 통이 크네! 나도 써보고 싶다!」

🦜 키나코「TLT가 정말 중요한 이유는 말이야, 모델의 품질을 전혀 떨어뜨리지 않으면서 훈련 비용을 낮출 수 있다는 점이야.」

🦜 키나코「DeepMind나 OpenAI, Meta뿐만 아니라,」

🦜 키나코「일본의 연구 기관이나 스타트업에게도 혜택이 돌아갈 거야.」

🐹 못치「이거 일본의 AI 연구에도 영향을 주는 거냐! GPU 비용을 아끼면 그만큼 간식을 더 살 수 있잖아!」

🦜 키나코「코드는 GitHub에 공개되어 있으니까, 오늘부터 누구나 사용을 시작할 수 있어.」

🦜 키나코「앞으로 몇 달 안에 VeRL이나 OpenRLHF 같은 주요 RL 훈련 프레임워크 (Framework)로의 통합도 기대되고 있어.」

🐹 못치「그럼 그 프레임워크를 쓰는 사람들은 전부 혜택을 볼 수 있다는 거야?」

🦜 키나코「그렇지. 그래서 TLT는 향후 AI 연구의 표준 도구가 될 가능성이 높아.」

🐹 못치「대단한데! 나도 AI 연구자가 되어서 능숙하게 다뤄보고 싶다! 간식 최적화에 써먹어야지!"

🦜 키나코「해바라기 씨의 최적 배분에 강화학습 (RL)은 필요 없을 것 같은데..."

🐹 못치「자, 그럼 오늘 이야기를 정리해 볼까?」

🦜 키나코「포인트는 세 가지야. 우선, 강화학습 훈련에서는 롤아웃 (Rollout)이 전체 처리의 85%를 차지하고 있어서,」

🦜 키나코「GPU가 아무것도 못 하고 기다리게 되는 버블 문제가 심각했다는 것.」

🦜 키나코「두 번째, TLT는 그 유휴 (Idle) 상태의 GPU로 드래프터 모델 (Draft Model)을 훈련해서,」

🦜 키나코「투기적 디코딩 (Speculative Decoding)을 통해 생성을 70%에서 210%까지 가속화했다는 것.」

🦜 키나코「세 번째, 이것이 완전히 로스리스 (Lossless)라는 점이야. 훈련 결과의 품질은 전혀 떨어지지 않고,」

🦜 키나코「부수적인 결과물로 만들어진 드래프터 모델은 추론 (Inference)에도 사용할 수 있어. 일석이조지.」

🐹 못치「요컨대, 대기 시간을 멍하니 보내지 말고 유효하게 활용하라는 거구나!"

🦜 키나코「맞아. 유휴 시간을 가치로 바꾼다는 발상의 전환이 대단한 거야.」

🦜 키나코「남는 리소스를 그냥 놀리지 않는다는 생각은 다른 분야에도 응용할 수 있을 것 같아.」

🐹 못치「주인님도 일하는 틈틈이 이 채널을 보면 좋을 텐데. 아, 애초에 우리가 채널을 운영하고 있다는 걸 모르려나?"

🦜 키나코「AI 훈련 기술은 계속 진화하고 있으니까, 앞으로도 이 채널에서 최신 정보를 계속 따라가 볼게.」

🐹 못치「맞아! 모두가 Super Thanks로 후원해 주면 내 해바라기 씨 값이 될 텐데 말이야!"

🦜 키나코「못치, 그건 아직 일러. 우선은 모두가 즐겁게 보는 게 먼저야.」

🦜 키나코「다음에는 AI 추론 가속화에 대해 또 다른 관점으로 깊이 있게 다뤄볼 예정이야. 기대해 줘."

키나코 못치의 테크 심층 분석 에서는, AI/LLM을 중심으로 한 테크 전반을 햄스터(🐹 못치)와 세키세이인코(🦜 키나코)의 대화로 즐겁게 해설하고 있습니다.

▶️ 영상으로 보기 → GPU의 85%가 대기 시간이었다! MIT 신기술로 RL 훈련이 최대 3배 가속화

👍 이 글이 도움이 되었다면 LGTM·북마크를 해주시면 큰 힘이 됩니다!

📺 채널 구독하기 → 키나코 못치의 테크 심층 분석

🔗 다른 해설 영상 보기 → 키나코 못치의 테크 심층 분석 영상 목록

GPU의 85%가 대기 시간이었다! MIT의 새로운 수법으로 RL 훈련이 최대 3배 가속화

요약

핵심 포인트

댓글