Claude Fable 5 [max]가 KernelBench-Mega에 제출된 최초의 진정한 (그리고 가장 빠른)

Claude Fable 5 [max]가 KernelBench-Mega에 제출된 최초의 진정한 (그리고 가장 빠른) 메가커널 (megakernel)을 작성했습니다.

다음 환경에서 테스트되었습니다: RTX PRO 6000 Blackwell용 Kimi-Linear W4A16 batch-1 decode.
이전의 모든 모델은 우리의 단일 융합 커널 (single-fused-kernel) 진위 확인 관문을 통과하지 못하는 멀티 커널 Triton 파이프라인 (multi-kernel Triton pipeline)을 사용하여 해당 항목에서 "승리"했습니다.

Opus 4.8: 14.4x
GLM-5.2: 11.1x
GPT-5.5: 4.3x
Sonnet 5: 4.0x.

Fable은 레퍼런스 (reference) 대비 18.7x를 기록했으며, torch.profiler는 디코딩된 토큰당 정확히 단 하나의 협력적 커널 실행 (cooperative kernel launch)을 보여줍니다. Int4 역양자화 (dequant, 레지스터 내에서 nibbles 언팩, 실제 메모리화되지 않음), conv+SiLU, KDA 게이트형 델타 상태 (gated-delta state), 온라인 소프트맥스 (online softmax)를 포함한 MLA 흡수형 잠재 어텐션 (absorbed-latent attention), MoE 라우터 (router) + top-8 전문가 (experts), RMSNorms, 심지어 KV 캐시 추가 (append)까지 모두 14개의 그리드 장벽 (grid barriers)에 의해 단계별로 구성된 단 한 번의 실행 내에서 이루어집니다. 우리는 이것이 실시간 데이터에서 재계산함을 증명하기 위해 감사 도중 입력 버퍼를 덮어썼습니다. 실제로 그렇습니다.

이 이점은 컨텍스트 (context)가 길어질수록 커집니다. 2k에서 17.8x, 8k에서 18.9x, 16k에서 19.5x를 기록했습니다. 더 긴 컨텍스트는 더 큰 KV 캐시와 토큰당 더 많은 어텐션 작업을 의미하며, 이는 보통 디코드 커널 (decode kernel)의 성능이 저하되는 지점입니다. 모든 것을 단 한 번의 실행에 유지함으로써 고정된 장벽 오버헤드 (barrier overhead)를 분할 상환하며, int4 GEMV는 대역폭 제한 (bandwidth-bound) 상태를 유지하므로 레퍼런스와의 격차가 좁혀지는 대신 오히려 더 벌어집니다.

세션의 64%를 베이스라인 (baseline) 타이밍 측정, 그리드 장벽 (grid barriers) 마이크로벤치마킹, 약 29x bytes/token 루프라인 (roofline) 도출을 위한 정적 상태로 보냈으며, 그 후 커널 전체를 한 번에 작성하여 첫 번째 벤치마크에서 14.4x를 달성했습니다. 그리고 마지막 한 시간 동안 장벽을 삭제하고 int4 역양자화 (dequant)를 무료로 만들었습니다 (하나의 LOP3 + HSUB2/HMUL2).
그것이 시도했던 단 하나의 퇴보 (regression, 더 세밀한 split-K)에 대해서도, 합리화하는 대신 직접 측정하고 되돌렸습니다.

Insights

Claude Fable 5 [max]가 KernelBench-Mega에 제출된 최초의 진정한 (그리고 가장 빠른)

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법