arXiv논문2026. 06. 19. 10:33

LLM이 생성한 GPU 커널에서의 정확성 착각 (The Correctness Illusion in LLM-Generated GPU

요약

LLM이 생성한 GPU 커널의 정확성을 검증하는 기존 벤치마크들의 한계를 지적합니다. 고정된 형태와 소규모 샘플을 사용하는 기존 방식이 실제 버그를 놓칠 수 있음을 실험적으로 증명했습니다.

핵심 포인트

기존 GPU 커널 벤치마크의 검증 방식(allclose)에 결함이 있음을 발견
시드 퍼징을 통해 LLM 스타일의 전사 오류를 모두 포착하는 새로운 프로토콜 제안
다양한 GPU 클래스(H100, A100 등)에서 실험 결과의 일관성 확인
단일 형태 검증이 LLM 생성 코드의 정확성을 보장하지 못함을 경고

LLM이 생성한 GPU 커널을 위한 벤치마크들(KernelBench, TritonBench, GEAK)은 고정된 형태(fixed-shape)와 소규모 샘플의 allclose 방식 검증을 통해 정확성을 측정합니다. 벤치마크마다 입력의 수는 다릅니다. 각 커널에 대해 형태(shape), 데이터 타입(dtype), 허용 오차(tolerance)는 고정되어 있습니다. 우리는 이 오라클(oracle)을 경험적으로 테스트합니다. 우리는 24개의 Triton 및 CPU 대용 커널(15개의 정확한 대조군과 문서화된 전사 오류(transcription errors)가 포함된 9개의 LLM 스타일 버그 변형)로 구성된 통제된 코퍼스를 구축하고, 고정밀(fp64) CPU 참조 및 연산별/데이터 타입별(per-(op, dtype)) 절대 허용 오차를 사용하는 연산 스키마 인식 시드 퍼징(op-schema-aware seeded fuzzing) 하에서 이를 재평가합니다. 시드된 오라클은 9개의 버그 커널 중 9개를 모두 찾아냈으며, 15개의 정확한 대조군 중 15개를 모두 통과시켰고, 대조군에 대한 정밀도 비용(precision cost)은 0이었습니다. 우리는 코퍼스를 26개의 연산(flash-attention 쌍 추가)으로 확장하고 5개의 GPU 클래스(RTX 3060, A10, L40S, A100 SXM4, H100 NVL)에서 동일한 프로토콜을 재실행했습니다. 판정 결과는 5개의 GPU 모두에서 동일했습니다: 10개의 착각(illusions) 중 10개를 모두 포착했고, 16개의 대조군 중 16개가 모두 깨끗했습니다. 코퍼스 결과는 단일 형태에 대한 allclose 오라클이 정확하다고 인증해버리는 LLM 스타일의 전사 버그(transcription bugs)에 관한 것이지, 특정 배포된 LLM의 버그율에 관한 것이 아닙니다. 플래그가 지정된 모든 실패 사례는 저장된 시드로부터 바이트 단위로 동일하게 재현됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM이 생성한 GPU 커널에서의 정확성 착각 (The Correctness Illusion in LLM-Generated GPU

요약

핵심 포인트

댓글