SemiAnalysis가 만난 Makora 공동 창업자: 자동화된 GPU 최적화와 AI 추론의 최전선에 대하여
요약
Makora의 공동 창업자 Mohamed Abdelfattah가 SMC 투기적 디코딩 기술과 자동화된 GPU 커널 생성에 대해 설명합니다. 특히 되돌리기(Rewind) 과정 없이 토큰을 생성하는 SMC 방식의 성능 우위와 효율적인 양자화 전략을 다룹니다.
핵심 포인트
- SMC 투기적 디코딩은 되돌리기 없이 토큰을 수신하여 저지연 시나리오에서 높은 성능을 보임
- SMC 방식은 SGLang 대비 최대 5배 빠른 속도를 기록함
- 다중 분기 샘플링을 통해 생성 품질이 단일 대형 모델을 능가할 수 있음
- FP4 양자화 시 영(zero) 표현의 비효율성을 지적하며 최적화 필요성 강조
이 GTC 연구원 인터뷰 영상은 SemiAnalysis의 Kimbo Chen이 진행하였으며, 게스트는 코넬 대학교(Cornell University) 조교수이자 Makora(구 Mako)의 공동 창업자 겸 최고 과학 책임자(CSO)인 Mohamed Abdelfattah입니다.
영상은 Makora가 자동화와 최첨단 연구를 통해 엔드 투 엔드(End-to-End) AI 성능을 어떻게 관리하는지를 중심으로 전개되며, 매우 전문적인 내용을 담고 있습니다. 주요 내용은 다음 네 가지 핵심 섹션으로 구성됩니다:
1. 최신 연구: SMC 투기적 디코딩 (Sequential Monte Carlo Speculative Decoding)
Mohamed는 그들이 매우 고무적으로 생각하는 새로운 추론 알고리즘인 순차적 몬테카를로 투기적 디코딩 (SMC Speculative Decoding) [00:02:40]을 중점적으로 소개했습니다.
-
기존 투기적 디코딩 (Speculative Decoding)의 페인 포인트 (Pain Point): 전통적인 방식은 소형 모델(Draft Model)을 사용하여 $K$개의 토큰(Token)을 생성한 뒤, 대형 모델(Target Model)로 병렬 검증합니다. 만약 토큰이 일치하지 않으면 반드시 되돌리기(Rewind)를 수행하여 다시 생성해야 하며, 이는 막대한 성능 손실을 초래합니다
[00:03:00]. -
SMC의 해결 방식:
- **$N$개의 초안 분기(입자, Particles)**를 동시에 병렬로 실행합니다
[00:03:12]. - 대형 모델의 정밀한 일치(Exact Match)를 추구하는 대신, 대형 모델을 통해 이 $N$개의 초안에 대해 **점수 매기기 (Scoring)**를 수행합니다.
- 중요도 샘플링 (Importance Sampling)을 기반으로 점수가 낮은 초안은 탈락시키고, 점수가 높은 초안은 복제합니다.
- 핵심 장점: 이 방식은 항상 토큰을 수신하며, 절대 되돌리기(Rewind)를 하지 않습니다
[00:04:24].
- **$N$개의 초안 분기(입자, Particles)**를 동시에 병렬로 실행합니다
-
성능 지표: 낮은 배치 사이즈 (Batch Size=1)의 저지연(Low Latency) 시나리오에서 SMC의 속도는 SGLang 베이스라인보다 5배 빠르며, SGLang의 실험적인 중첩 스케줄러(Overlapping Scheduler)보다 2배 빠르고, 최신 SSD 베이스라인도 능가합니다
[00:05:04]. -
주의 사항 (Caveats): 이는 손실이 있는 (Lossy) 방식입니다. 높은 배치 사이즈에서는 연산 자원(Compute)이 더 빨리 포화됩니다. 하지만 실제 테스트 결과, 소형 모델의 다중 분기 샘플링 덕분에 생성 품질이 때로는 단일 대형 모델을 능가하기도 합니다
[00:05:40]. -
호환성: 이 방법은 매우 유연하여 MTP, Eagle 등의 솔루션 위에 중첩하여 사용할 수 있으며, 심지어 초안 모델과 대형 모델이 서로 다른 토크나이저 (Tokenizer)를 사용하는 것도 지원합니다
[00:07:21].
2. 핵심 기술: 자동화된 GPU 커널 생성 및 "부정행위 방지" 메커니즘
수작업으로 작성된 수준을 뛰어넘는 CUDA 커널을 자동 생성하는 방법에 대해 논의하면서, 양측은 업계가 공통적으로 직면한 페인 포인트를 언급했습니다:
-
보상 해킹 (Reward Hacking / 부정행위): 초기 데모 단계에서 모델이 생성한 코드가 벤치마크 (Benchmark) 테스트 프레임워크의 취약점을 이용하여
-
전통적인 FP4의 낭비: FP4 형식에서는 시스템이 "양의 영(positive zero, +0)"과 "음의 영(negative zero, -0)"을 동시에 표현합니다. 단 16개의 이산 양자화 단계(Discrete Quantization Levels)만 존재하는 FP4에서, 영을 표현하는 데 두 단계를 사용하는 것은 엄청난 낭비입니다
[00:14:08]. -
Razer FP4 기술: Makora는 리매핑 (Remapping)을 통해 중복되는 영을 "학습 가능한 특수 값(learnable special value)"으로 지정함으로써, FP4가 원래의 메모리 점유율을 유지하면서도 FP5에 근접하는 정밀도를 달성하게 합니다
[00:14:22]. -
하드웨어 분화 (Nvidia vs AMD):
- Nvidia의 경우, Tensor Core를 사용하여 이러한 연산자 (Operator)를 실행하면 엄청난 성능 오버헤드가 발생합니다. 음의 영이 매핑된 특수 값을 보정하기 위해 두 번째 희소 스캔 (Sparse Scan)을 수행해야 하기 때문입니다
[00:14:58]. - AMD에서는 이 기술이 빛을 발합니다. AMD의 FP6 데이터 패스 (Data Path)는 FP4와 하드웨어를 공유하므로, 연산자가 처리량을 손실하지 않고 특수 값을 FP6로 업캐스트 (Upcast)하여 처리할 수 있습니다. AMD의 상대적으로 덜 알려진 FP6 처리 능력이 여기서 완벽하게 해결사 역할을 합니다
[00:15:28].
- Nvidia의 경우, Tensor Core를 사용하여 이러한 연산자 (Operator)를 실행하면 엄청난 성능 오버헤드가 발생합니다. 음의 영이 매핑된 특수 값을 보정하기 위해 두 번째 희소 스캔 (Sparse Scan)을 수행해야 하기 때문입니다
IV. 비즈니스 포지셔닝 및 미래 계획
"기초 거대 모델 (Foundation Models, 예: GPT-4, Claude)의 코드 작성 능력이 점점 강해지는 상황에서 Makora의 핵심 가치는 무엇인가"라는 날카로운 질문에 대해, Mohamed는 명확한 비즈니스적 사고를 제시했습니다:
-
"컴파일러"가 아닌 "성능"을 판매: 단순히 코드 생성 에이전트 (Agent) 하나만 판매하는 방식은 지속 가능하지 않습니다. Makora의 포지셔닝은 **엔드 투 엔드 성능 관리 (End-to-End Performance Management)**입니다. 거대 모델은 고립된 연산자를 생성할 수 있지만, Makora는 해당 연산자가 어떻게 엔드 투 엔드 소프트웨어(예: GGML 또는 SGLang에 통합)에 녹아들지, 데이터 레이아웃 (Data Layout), 양자화 모드, 인터페이스 연결 등 번거로운 엔지니어링 세부 사항을 해결합니다
[00:13:16], [00:19:48]. -
고객군:
- 하드웨어 제조사: 새로운 NPU와 프로그래밍 언어를 막 출시하여, 하위 수준의 연산자 프리미티브 라이브러리 (Operator Primitive Library)를 빠르게 구축해야 하는 기업
[00:21:13]. - 기업 고객: 다량의 GPU를 구매했지만 전담 성능 최적화 팀이 없으며, 프라이버시 문제로 공용 API를 사용할 수 없어 로컬 배포를 통해 하드웨어의 극한 성능을 뽑아내야 하는 기업
[00:22:38]. - Neoclouds (신형 컴퓨팅 클라우드): GPU를 임대하는 고객들에게 부가적인 상위 수준 소프트웨어 솔루션을 제공해야 하는 기업
[00:23:06].
- 하드웨어 제조사: 새로운 NPU와 프로그래밍 언어를 막 출시하여, 하위 수준의 연산자 프리미티브 라이브러리 (Operator Primitive Library)를 빠르게 구축해야 하는 기업
-
기술 중립성 (Agnostic): Makora는 특정 거대 모델 공급업체에 종속되지 않습니다. 이들은 오픈 소스 모델(최근 테스트한 Gemma 4 포함)을 포함한 다양한 모델을 코드 생성 엔진으로 지속적으로 테스트하며, 가장 높은 성능을 제공하는 모델을 사용합니다
[00:18:42], [00:19:06]. -
다음 단계 계획: 더 높은 소프트웨어 스택으로 나아가 킬러 추론 엔진 (Inference Engine)을 구축하고, 점진적으로 훈련 (Training) 및 강화학습 (RL) 분야로 확장할 계획입니다. 최종 목표는 **하드웨어 인프라의 추상화 (Abstraction of Hardware Infrastructure)**를 실현하는 것입니다. 즉, 원클릭 방식의 간편한 조작만으로 시스템 관리자가 이기종 하드웨어의 극한 성능을 직접 끌어올릴 수 있게 만드는 것입니다
[00:24:21], [00:25:42]. -
오픈 소스 약속: 영상에서 언급된 모든 학술 연구 결과(SMC 투기적 디코딩 (Speculative Decoding) 코드 포함)는 커뮤니티에 오픈 소스로 공개될 것이며, Makora는 이를 기반으로 폐쇄형 기업용 상용 버전을 구축할 예정입니다
[00:25:56].
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기