Claude Fable이 PyTorch 베이스라인 대비 18배 이상의 속도 향상을 제공하는 융합된 메가커널(fused megakernel)을

Claude Fable 5 [max]가 KernelBench-Mega에 제출된 것 중 최초의 진정한 (그리고 가장 빠른) 메가커널(megakernel)을 작성했습니다.
RTX PRO 6000 Blackwell을 위한 Kimi-Linear W4A16 batch-1 디코딩(decode)에서 테스트되었습니다. 이전의 모든 모델은 우리의 테스트를 통과하지 못한 멀티 커널 Triton 파이프라인(multi-kernel Triton pipeline)으로 '승리'했습니다. — Elliot Arledge

출처: https://x.com/elliotarledge/status/2072814573753975266

Anthropic은 확실히 내부적으로 아주 멋진 자동 연구(autoresearch)를 수행하고 있습니다. 특히 아키텍처 연구(architecture research)를 하는 분들은 Anthropic에서 매우 행복할 것입니다. 새로운 아키텍처를 바이브 테스트(vibe-testing)하거나 아키텍처를 약간 수정하고, 이를 반최적화(semi-optimized)된 방식으로 테스트하고 싶다고 상상해 보세요. 그냥 10T Mythos가 하루 동안 요리되도록(cook) 두면 됩니다. — Lisan al Gaib

출처: https://x.com/scaling01/status/2072829688569860098

u/stealthispost에서 가져옴, 이름이 맞음.
수정: 복사 붙여넣기(copypasta)를 수정해야 했습니다.
제출자: /u/DeepWisdomGuy
[링크] [댓글]

Insights

Claude Fable이 PyTorch 베이스라인 대비 18배 이상의 속도 향상을 제공하는 융합된 메가커널(fused megakernel)을

요약

핵심 포인트

댓글

ReasonMed: 의료 추론 발전을 위한 370K 멀티 에이전트 생성 데이터셋

Meta가 클라우드 시장 진출을 원한다. Amazon 주식은 여전히 매수 대상인가?

비트코인 ETF, 두 달간 89.5억 달러 유출, 매도세는 끝나지 않았다

CrowdStrike가 4대 1 주식 분할을 실시했습니다. 193달러의 가격은 매수 기회일까요?

Meta가 클라우드 시장 진출을 원한다. Amazon 주식은 여전히 매수 대상인가?

비트코인 ETF, 두 달간 89.5억 달러 유출, 매도세는 끝나지 않았다

CrowdStrike가 4대 1 주식 분할을 실시했습니다. 193달러의 가격은 매수 기회일까요?