arXiv논문2026. 06. 23. 22:18

NVIDIA L40의 스트리밍 멀티프로세서(SM) 간 비균일한 L2 캐시 지연 시간

요약

NVIDIA L40 GPU의 L2 캐시 지연 시간이 SM(Streaming Multiprocessor) 위치에 따라 비균일하게 나타난다는 연구 결과입니다. 이를 통해 장치의 물리적 정체성을 식별하는 지문 인식(fingerprinting)이 가능하며, 지연 시간 기반 작업 분산 시 성능을 최대 11% 향상할 수 있습니다.

핵심 포인트

L2 캐시 히트 지연 시간은 SM 위치에 따라 52% 범위 내에서 변동함
지연 시간 패턴을 통해 장치 고유의 하드웨어 정체성 식별 가능
지연 시간 기반 작업 분산 시 메이크스팬 최대 11% 단축 가능
Blackwell 아키텍처(RTX 5090)에서도 유사 현상 확인

NVIDIA L40은 일반적으로 단일 히트 지연 시간(hit latency)을 가진 하나의 균일한 풀(pool)로 모델링되는 96 MiB L2 캐시를 노출합니다. 본 연구에서는 커널이 인지하는 입도(granularity)에서 이것이 잘못되었음을 보여줍니다. 즉, L2 히트 지연 시간은 어떤 물리적 스트리밍 멀티프로세서(SM)가 로드(load)를 발행하느냐에 따라 강력하고 재현 가능하게 달라집니다. 순차적으로 실행되는 %smid-resolved 프로브(probe)는 한 번의 실행(launch) 동안 142개 SM 전체의 히트 지연 시간을 매핑합니다. 이 지연 시간은 279 사이클 근처의 상수가 아니라 222-339 사이클(52% 범위)에 걸쳐 분포하며, 반복당 노이즈는 0.01 사이클 미만입니다. 가산 모델(additive model) $L = μ+ a( ext{sm}) + b( ext{slice})$는 $R^2 = 0.87$ (rank-1 항 하나를 포함할 경우 0.98)을 설명하며, SM 항은 AD102 GPC 레이아웃을 따라 이중 대칭(상관관계 $r = 0.999$인 72개 SM씩 두 부분)을 이룹니다. 독립적인 액세스 패턴(access patterns)은 SM별로 $r = 1.000$의 일치성을 보이므로, 이 효과는 물리적입니다. Blackwell RTX 5090에서 동일한 프로브를 수행한 결과 이 현상이 일반화됨을 보여주는 반면, 다이(die)별 패턴은 장치 특이적(device-specific)입니다. 지문(fingerprint)으로 읽을 경우, 단일 사용자 수준 프로브는 장치 내의 SM을 92%의 정확도로 식별하며, 물리적으로 동일한 두 대의 L40은 평균 지연 시간이 거의 동일함에도 불구하고(SM별 맵 $r = 0.63$) 100%의 정확도로 구분됩니다. 이는 클록 아티팩트(clock artifact)가 아닌 다이별 하드웨어 정체성(hardware identity)입니다. 이는 자기 위치 파악(self-localization) 및 지문 인식(fingerprinting) 프리미티브(primitive)입니다. 즉, 커널은 피해자의 데이터를 추출하지 않고 자신의 배치와 장치를 읽습니다. 이 맵은 안정적이며, 두 장치 모두에서 한 시간 동안 최대 활용 상태로 유지한 후에도 변하지 않았습니다. 결과적으로, 이 맵을 기준으로 지연 시간 제한(latency-bound) 작업을 분산하면 메이크스팬(makespan)을 최대 11%까지 단축할 수 있습니다. 단일 스레드 용량(Single-thread capacity), 라인 태그(line-tag), 프리페치 수정자(prefetch-modifier), 지속되는 L2(persisting-L2) 결과는 대조군(controls)으로 나타납니다. 아티팩트에는 시드(seeds), 원시 관측값(raw observations), 학습된 모델 및 재생 스크립트가 포함되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA L40의 스트리밍 멀티프로세서(SM) 간 비균일한 L2 캐시 지연 시간

요약

핵심 포인트

댓글