LLVM 최적화 파이프라인에 대한 다차원적, 패스별 경험적 연구

개별 최적화 패스(optimization passes)의 한계적 영향(marginal impact)을 정량화하는 것은 단계 순서 결정(phase ordering), 패스 선택(pass selection), 최적화 설계, 그리고 패스/하드웨어 상호작용 분석의 근간이 됩니다. MLIR을 통해 C/C++, Rust, 그리고 ML 스택의 표준 백엔드 역할을 하는 LLVM에서, 최적화 패스 간의 상호작용, 측정 노이즈, 그리고 파이프라인 규모는 이러한 정량화를 어렵게 만듭니다. 본 연구에서는 LLVM -O3 최적화 파이프라인에 대한 체계적이고 경험적인 연구를 제시합니다. 우리는 파이프라인을 누적된 패스별 접두사(per-pass prefixes)로 분해합니다. 그 후, 엄격한 노이즈 완화(noise mitigation) 하에 30개의 PolyBench/C 커널을 대상으로 -O3 파이프라인의 113개 누적 접두사를 평가하여, 84,750회의 측정에 걸쳐 실행 시간(execution time), 컴파일 시간(compile time), 바이너리 크기(binary size), 하드웨어 카운터(hardware counters), 그리고 RAPL 에너지를 측정했습니다. 이러한 연산 집약적(compute-bound) 아핀 커널(affine kernels)에서, 파이프라인은 비단조적(non-monotone)이며(전환의 6.6-9.7%가 퇴보함), 강력하게 후반부 집중형(back-loaded)입니다(퇴보하지 않는 커널의 중앙값은 속도 향상의 80%를 얻기 위해 파이프라인의 84.8%를 필요로 함). 대부분의 이득은 소수의 파레토 우위(Pareto-dominant) 핵심 패스들에 의해 주도되는 반면, 최종 -O3 설정은 30개 커널 중 29개에서 (크기, 속도 향상) 측면의 파레토 지배(Pareto-dominated)를 받습니다. 우리는 더 나아가 IR 명령어 수(instruction count)가 실행 시간(runtime)의 신뢰할 수 없는 예측 변수라는 점, 실행 시간 타겟 패스가 사실상 에너지 타겟 패스라는 점(30-60% 절감), 그리고 단계 간섭(phase interference)으로 인한 손실에 대한 탐색이 필요 없는 이상적 가산 상한선(idealized-additive upper bound)이 46.35%라는 점을 보여줍니다. 이러한 발견은 더욱 정보에 기반한 패스 가지치기(pass pruning), 비용 모델 교정(cost-model calibration), 그리고 자동 튜닝(autotuning)을 가능하게 합니다.

Insights

LLVM 최적화 파이프라인에 대한 다차원적, 패스별 경험적 연구

요약

핵심 포인트

댓글

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)