arXiv논문2026. 05. 20. 16:33

TLX: 대규모 프로덕션 환경을 위한 하드웨어 네이티브 및 진화 가능한 MIMW GPU 컴파일러

요약

TLX는 현대 GPU의 복잡한 하드웨어 유닛과 비동기 메커니즘을 효율적으로 제어하기 위해 개발된 MIMW(Multi-Instruction, Multi-Warp) 기반의 GPU 컴파일러 확장입니다. Triton의 생산적인 블록 프로그래밍 모델을 유지하면서도 워프 그룹 단위의 세밀한 조율을 가능하게 하여, 데이터 이동과 텐서 코어 연산 최적화를 지원합니다. 실제 대규모 학습 및 추론 프로덕션 환경에서 성능과 커스터마이징 유연성을 입증하였습니다.

핵심 포인트

MIMW(Multi-Instruction, Multi-Warp) 구조를 통해 하드웨어 제어의 세밀함과 프로그래밍 생산성 사이의 균형을 제공합니다.
멀티 워프 실행, 로컬 메모리 조율, 비동기 연산 및 클러스터 인식 제어를 위한 명시적 인터페이스를 지원합니다.
Triton의 임베디드 확장 방식으로 구현되어 기존 Triton 모델과의 호환성을 유지합니다.
대규모 프로덕션 시스템의 학습 및 추론 환경에서 실제 배포 및 검증을 완료하였습니다.

현대적인 GPU는 점점 더 특화된 하드웨어 유닛과 비동기 조정 메커니즘 (asynchronous coordination mechanisms)에 의존하고 있으며, 따라서 성능은 더 많은 스레드 수준 병렬성 (thread-level parallelism)을 노출하기보다는 데이터 이동, 텐서 코어 (tensor-core) 연산, 그리고 동기화 (synchronization)를 조율하는 것에 달려 있습니다. 이는 프로그래밍 모델의 긴장 상태를 유발합니다. 즉, 실행 구조가 너무 많이 숨겨지면 컴파일러가 새로운 하드웨어 메커니즘을 따라잡아야 하며, 너무 많이 노출되면 조율의 부담이 다시 프로그래머에게 돌아가게 됩니다. 본 논문에서는 MIMW (Multi-Instruction, Multi-Warp)를 중심으로 구축된 TLX (Triton Low-level Language Extensions)를 제시합니다. 이는 정규 연산에 대한 Triton의 생산적인 블록 프로그래밍 모델 (blocked programming model)을 유지하면서도, 워프 그룹 (warp-group) 단위의 세밀함으로 조율을 표현합니다. TLX는 이 아이디어를 Triton의 임베디드 확장 (embedded extension)으로 구현하여, 멀티 워프 실행 (multi-warp execution), 로컬 메모리 조율 (local-memory orchestration), 비동기 연산 (asynchronous operations), 그리고 클러스터 인식 제어 (cluster-aware control)를 위한 명시적 인터페이스를 제공합니다. 우리의 평가 결과에 따르면, TLX는 최첨단 구현체들과 경쟁력을 유지하면서도 제한된 개발 노력으로 상당한 수준의 커스터마이징을 지원함을 보여줍니다. TLX로 작성된 커널은 대규모 학습 및 추론 프로덕션 시스템에 배포되었습니다. 우리의 코드는 https://github.com/facebookexperimental/triton 에서 오픈 소스로 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TLX: 대규모 프로덕션 환경을 위한 하드웨어 네이티브 및 진화 가능한 MIMW GPU 컴파일러

요약

핵심 포인트

댓글