Claude Fable이 PyTorch 베이스라인 대비 18배 이상의 속도 향상을 제공하는 융합된 메가커널(fused megakernel)을
요약
Claude Fable이 PyTorch 베이스라인 대비 18배 이상의 속도 향상을 제공하는 메가커널을 개발했습니다. 이는 Blackwell GPU 환경에서 Kimi-Linear W4A16 디코딩 성능을 극대화하며, Anthropic의 자동 연구 역량을 보여줍니다.
핵심 포인트
- Claude Fable이 KernelBench-Mega에서 최초의 진정한 메가커널 작성
- PyTorch 베이스라인 대비 18배 이상의 속도 향상 달성
- RTX PRO 6000 Blackwell 환경에서 뛰어난 디코딩 성능 입증
- Anthropic의 강력한 자동 연구(autoresearch) 및 아키텍처 최적화 역량
Claude Fable 5 [max]가 KernelBench-Mega에 제출된 것 중 최초의 진정한 (그리고 가장 빠른) 메가커널(megakernel)을 작성했습니다.
RTX PRO 6000 Blackwell을 위한 Kimi-Linear W4A16 batch-1 디코딩(decode)에서 테스트되었습니다. 이전의 모든 모델은 우리의 테스트를 통과하지 못한 멀티 커널 Triton 파이프라인(multi-kernel Triton pipeline)으로 '승리'했습니다. — Elliot Arledge
출처: https://x.com/elliotarledge/status/2072814573753975266
Anthropic은 확실히 내부적으로 아주 멋진 자동 연구(autoresearch)를 수행하고 있습니다. 특히 아키텍처 연구(architecture research)를 하는 분들은 Anthropic에서 매우 행복할 것입니다. 새로운 아키텍처를 바이브 테스트(vibe-testing)하거나 아키텍처를 약간 수정하고, 이를 반최적화(semi-optimized)된 방식으로 테스트하고 싶다고 상상해 보세요. 그냥 10T Mythos가 하루 동안 요리되도록(cook) 두면 됩니다. — Lisan al Gaib
출처: https://x.com/scaling01/status/2072829688569860098
u/stealthispost에서 가져옴, 이름이 맞음.
수정: 복사 붙여넣기(copypasta)를 수정해야 했습니다.
제출자: /u/DeepWisdomGuy
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기