
Claude Fable 5 [max]가 KernelBench-Mega에 제출된 최초의 진정한 (그리고 가장 빠른)
요약
Claude Fable 5 [max]가 KernelBench-Mega에서 최초의 진정한 메가커널을 구현하며 압도적인 성능을 기록했습니다. 단일 융합 커널 방식을 통해 기존 모델 대비 최대 18.7배 빠른 속도를 달성했습니다.
핵심 포인트
- 단일 융합 커널(single-fused-kernel)로 멀티 커널 파이프라인의 오버헤드 제거
- Int4 역양자화, MLA, MoE 등을 단 한 번의 커널 실행 내에서 처리
- 컨텍스트 길이가 길어질수록 레퍼런스 대비 성능 격차 확대
- 그리드 장벽(grid barriers) 최적화를 통한 실시간 디코딩 성능 극대화
Claude Fable 5 [max]가 KernelBench-Mega에 제출된 최초의 진정한 (그리고 가장 빠른) 메가커널 (megakernel)을 작성했습니다.
다음 환경에서 테스트되었습니다: RTX PRO 6000 Blackwell용 Kimi-Linear W4A16 batch-1 decode.
이전의 모든 모델은 우리의 단일 융합 커널 (single-fused-kernel) 진위 확인 관문을 통과하지 못하는 멀티 커널 Triton 파이프라인 (multi-kernel Triton pipeline)을 사용하여 해당 항목에서 "승리"했습니다.
Opus 4.8: 14.4x
GLM-5.2: 11.1x
GPT-5.5: 4.3x
Sonnet 5: 4.0x.
Fable은 레퍼런스 (reference) 대비 18.7x를 기록했으며, torch.profiler는 디코딩된 토큰당 정확히 단 하나의 협력적 커널 실행 (cooperative kernel launch)을 보여줍니다. Int4 역양자화 (dequant, 레지스터 내에서 nibbles 언팩, 실제 메모리화되지 않음), conv+SiLU, KDA 게이트형 델타 상태 (gated-delta state), 온라인 소프트맥스 (online softmax)를 포함한 MLA 흡수형 잠재 어텐션 (absorbed-latent attention), MoE 라우터 (router) + top-8 전문가 (experts), RMSNorms, 심지어 KV 캐시 추가 (append)까지 모두 14개의 그리드 장벽 (grid barriers)에 의해 단계별로 구성된 단 한 번의 실행 내에서 이루어집니다. 우리는 이것이 실시간 데이터에서 재계산함을 증명하기 위해 감사 도중 입력 버퍼를 덮어썼습니다. 실제로 그렇습니다.
이 이점은 컨텍스트 (context)가 길어질수록 커집니다. 2k에서 17.8x, 8k에서 18.9x, 16k에서 19.5x를 기록했습니다. 더 긴 컨텍스트는 더 큰 KV 캐시와 토큰당 더 많은 어텐션 작업을 의미하며, 이는 보통 디코드 커널 (decode kernel)의 성능이 저하되는 지점입니다. 모든 것을 단 한 번의 실행에 유지함으로써 고정된 장벽 오버헤드 (barrier overhead)를 분할 상환하며, int4 GEMV는 대역폭 제한 (bandwidth-bound) 상태를 유지하므로 레퍼런스와의 격차가 좁혀지는 대신 오히려 더 벌어집니다.
세션의 64%를 베이스라인 (baseline) 타이밍 측정, 그리드 장벽 (grid barriers) 마이크로벤치마킹, 약 29x bytes/token 루프라인 (roofline) 도출을 위한 정적 상태로 보냈으며, 그 후 커널 전체를 한 번에 작성하여 첫 번째 벤치마크에서 14.4x를 달성했습니다. 그리고 마지막 한 시간 동안 장벽을 삭제하고 int4 역양자화 (dequant)를 무료로 만들었습니다 (하나의 LOP3 + HSUB2/HMUL2).
그것이 시도했던 단 하나의 퇴보 (regression, 더 세밀한 split-K)에 대해서도, 합리화하는 대신 직접 측정하고 되돌렸습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기