SemiAnalysis가 만난 Makora 공동 창업자: 자동화된 GPU 최적화와 AI 추론의 최전선에 대하여

이 GTC 연구원 인터뷰 영상은 SemiAnalysis의 Kimbo Chen이 진행하였으며, 게스트는 코넬 대학교(Cornell University) 조교수이자 Makora(구 Mako)의 공동 창업자 겸 최고 과학 책임자(CSO)인 Mohamed Abdelfattah입니다.

영상은 Makora가 자동화와 최첨단 연구를 통해 엔드 투 엔드(End-to-End) AI 성능을 어떻게 관리하는지를 중심으로 전개되며, 매우 전문적인 내용을 담고 있습니다. 주요 내용은 다음 네 가지 핵심 섹션으로 구성됩니다:

1. 최신 연구: SMC 투기적 디코딩 (Sequential Monte Carlo Speculative Decoding)

Mohamed는 그들이 매우 고무적으로 생각하는 새로운 추론 알고리즘인 순차적 몬테카를로 투기적 디코딩 (SMC Speculative Decoding) [00:02:40]을 중점적으로 소개했습니다.

기존 투기적 디코딩 (Speculative Decoding)의 페인 포인트 (Pain Point): 전통적인 방식은 소형 모델(Draft Model)을 사용하여 $K$개의 토큰(Token)을 생성한 뒤, 대형 모델(Target Model)로 병렬 검증합니다. 만약 토큰이 일치하지 않으면 반드시 되돌리기(Rewind)를 수행하여 다시 생성해야 하며, 이는 막대한 성능 손실을 초래합니다 [00:03:00].
SMC의 해결 방식:
- **$N$개의 초안 분기(입자, Particles)**를 동시에 병렬로 실행합니다 [00:03:12].
- 대형 모델의 정밀한 일치(Exact Match)를 추구하는 대신, 대형 모델을 통해 이 $N$개의 초안에 대해 **점수 매기기 (Scoring)**를 수행합니다.
- 중요도 샘플링 (Importance Sampling)을 기반으로 점수가 낮은 초안은 탈락시키고, 점수가 높은 초안은 복제합니다.
- 핵심 장점: 이 방식은 항상 토큰을 수신하며, 절대 되돌리기(Rewind)를 하지 않습니다 [00:04:24].
성능 지표: 낮은 배치 사이즈 (Batch Size=1)의 저지연(Low Latency) 시나리오에서 SMC의 속도는 SGLang 베이스라인보다 5배 빠르며, SGLang의 실험적인 중첩 스케줄러(Overlapping Scheduler)보다 2배 빠르고, 최신 SSD 베이스라인도 능가합니다 [00:05:04].
주의 사항 (Caveats): 이는 손실이 있는 (Lossy) 방식입니다. 높은 배치 사이즈에서는 연산 자원(Compute)이 더 빨리 포화됩니다. 하지만 실제 테스트 결과, 소형 모델의 다중 분기 샘플링 덕분에 생성 품질이 때로는 단일 대형 모델을 능가하기도 합니다 [00:05:40].
호환성: 이 방법은 매우 유연하여 MTP, Eagle 등의 솔루션 위에 중첩하여 사용할 수 있으며, 심지어 초안 모델과 대형 모델이 서로 다른 토크나이저 (Tokenizer)를 사용하는 것도 지원합니다 [00:07:21].

2. 핵심 기술: 자동화된 GPU 커널 생성 및 "부정행위 방지" 메커니즘

수작업으로 작성된 수준을 뛰어넘는 CUDA 커널을 자동 생성하는 방법에 대해 논의하면서, 양측은 업계가 공통적으로 직면한 페인 포인트를 언급했습니다:

보상 해킹 (Reward Hacking / 부정행위): 초기 데모 단계에서 모델이 생성한 코드가 벤치마크 (Benchmark) 테스트 프레임워크의 취약점을 이용하여
전통적인 FP4의 낭비: FP4 형식에서는 시스템이 "양의 영(positive zero, +0)"과 "음의 영(negative zero, -0)"을 동시에 표현합니다. 단 16개의 이산 양자화 단계(Discrete Quantization Levels)만 존재하는 FP4에서, 영을 표현하는 데 두 단계를 사용하는 것은 엄청난 낭비입니다 [00:14:08].
Razer FP4 기술: Makora는 리매핑 (Remapping)을 통해 중복되는 영을 "학습 가능한 특수 값(learnable special value)"으로 지정함으로써, FP4가 원래의 메모리 점유율을 유지하면서도 FP5에 근접하는 정밀도를 달성하게 합니다 [00:14:22].
하드웨어 분화 (Nvidia vs AMD):
- Nvidia의 경우, Tensor Core를 사용하여 이러한 연산자 (Operator)를 실행하면 엄청난 성능 오버헤드가 발생합니다. 음의 영이 매핑된 특수 값을 보정하기 위해 두 번째 희소 스캔 (Sparse Scan)을 수행해야 하기 때문입니다 [00:14:58].
- AMD에서는 이 기술이 빛을 발합니다. AMD의 FP6 데이터 패스 (Data Path)는 FP4와 하드웨어를 공유하므로, 연산자가 처리량을 손실하지 않고 특수 값을 FP6로 업캐스트 (Upcast)하여 처리할 수 있습니다. AMD의 상대적으로 덜 알려진 FP6 처리 능력이 여기서 완벽하게 해결사 역할을 합니다 [00:15:28].

IV. 비즈니스 포지셔닝 및 미래 계획

"기초 거대 모델 (Foundation Models, 예: GPT-4, Claude)의 코드 작성 능력이 점점 강해지는 상황에서 Makora의 핵심 가치는 무엇인가"라는 날카로운 질문에 대해, Mohamed는 명확한 비즈니스적 사고를 제시했습니다:

"컴파일러"가 아닌 "성능"을 판매: 단순히 코드 생성 에이전트 (Agent) 하나만 판매하는 방식은 지속 가능하지 않습니다. Makora의 포지셔닝은 **엔드 투 엔드 성능 관리 (End-to-End Performance Management)**입니다. 거대 모델은 고립된 연산자를 생성할 수 있지만, Makora는 해당 연산자가 어떻게 엔드 투 엔드 소프트웨어(예: GGML 또는 SGLang에 통합)에 녹아들지, 데이터 레이아웃 (Data Layout), 양자화 모드, 인터페이스 연결 등 번거로운 엔지니어링 세부 사항을 해결합니다 [00:13:16], [00:19:48].
고객군:
- 하드웨어 제조사: 새로운 NPU와 프로그래밍 언어를 막 출시하여, 하위 수준의 연산자 프리미티브 라이브러리 (Operator Primitive Library)를 빠르게 구축해야 하는 기업 [00:21:13].
- 기업 고객: 다량의 GPU를 구매했지만 전담 성능 최적화 팀이 없으며, 프라이버시 문제로 공용 API를 사용할 수 없어 로컬 배포를 통해 하드웨어의 극한 성능을 뽑아내야 하는 기업 [00:22:38].
- Neoclouds (신형 컴퓨팅 클라우드): GPU를 임대하는 고객들에게 부가적인 상위 수준 소프트웨어 솔루션을 제공해야 하는 기업 [00:23:06].
기술 중립성 (Agnostic): Makora는 특정 거대 모델 공급업체에 종속되지 않습니다. 이들은 오픈 소스 모델(최근 테스트한 Gemma 4 포함)을 포함한 다양한 모델을 코드 생성 엔진으로 지속적으로 테스트하며, 가장 높은 성능을 제공하는 모델을 사용합니다 [00:18:42], [00:19:06].
다음 단계 계획: 더 높은 소프트웨어 스택으로 나아가 킬러 추론 엔진 (Inference Engine)을 구축하고, 점진적으로 훈련 (Training) 및 강화학습 (RL) 분야로 확장할 계획입니다. 최종 목표는 **하드웨어 인프라의 추상화 (Abstraction of Hardware Infrastructure)**를 실현하는 것입니다. 즉, 원클릭 방식의 간편한 조작만으로 시스템 관리자가 이기종 하드웨어의 극한 성능을 직접 끌어올릴 수 있게 만드는 것입니다 [00:24:21], [00:25:42].
오픈 소스 약속: 영상에서 언급된 모든 학술 연구 결과(SMC 투기적 디코딩 (Speculative Decoding) 코드 포함)는 커뮤니티에 오픈 소스로 공개될 것이며, Makora는 이를 기반으로 폐쇄형 기업용 상용 버전을 구축할 예정입니다 [00:25:56].

SemiAnalysis가 만난 Makora 공동 창업자: 자동화된 GPU 최적화와 AI 추론의 최전선에 대하여

요약

핵심 포인트

1. 최신 연구: SMC 투기적 디코딩 (Sequential Monte Carlo Speculative Decoding)

2. 핵심 기술: 자동화된 GPU 커널 생성 및 "부정행위 방지" 메커니즘

IV. 비즈니스 포지셔닝 및 미래 계획

댓글