arXiv논문2026. 06. 26. 13:37

Apple M4 Pro의 잔류 GPU 캐시 상태 (Residual GPU Cache State)

요약

Apple M4 Pro 칩셋에서 GPU 작업 종료 후 남겨지는 잔류 캐시 상태를 분석한 연구입니다. GPU 커널 실행 후 CPU 성능에 미치는 캐시 변위 현상을 규명하고, 이를 완화할 수 있는 소프트웨어 복구 메커니즘을 제안합니다.

핵심 포인트

M4 Pro의 GPU 작업 후 발생하는 잔류 공유 캐시 변위 현상 확인
GPU 풋프린트가 CPU의 첫 번째 메모리 순회 성능에 미치는 영향 분석
DRAM 경합보다는 시스템 레벨 캐시 점유 패턴이 주요 원인임을 입증
하드웨어 PMU 및 IOReport를 통한 성능 코어와 AGX 간의 수요 분리
성능 저하를 방지하기 위한 1패스 소프트웨어 복구 메커니즘 제시

Apple silicon은 통합 CPU-GPU 메모리를 노출하지만, 완료된 GPU 명령 후에 남겨지는 캐시 상태(cache state)는 문서화되어 있지 않습니다. 본 논문은 14코어 Apple M4 Pro에서 해당 위상 경계(phase boundary)를 특성화합니다. 우리는 수정되지 않은 STREAM 5.10 및 BabelStream 5.0을 통해 측정 파이프라인을 검증한 후, 8192바이트 시스템 레벨 캐시(system-level-cache) 점유 패턴을 동기화된 Metal 실험에 맞게 조정했습니다. GPU 커널은 0에서 512 MiB를 사용하며, 16 MiB CPU 프로브(probe)가 시작되기 전에 종료됩니다. 큰 GPU 풋프린트(footprint) 이후 첫 번째 CPU 순회(traversal)는 더 느리게 나타나지만, 두 번째 순회에서는 대부분의 비용이 제거됩니다. 이는 동시 DRAM 경합(contention)보다는 잔류 공유 캐시 변위(residual shared-cache displacement)를 보여줍니다. 별도의 매치 블록(matched-block) 실험을 통해 높은 우선순위의 CPU 트래픽 하에서 GPU 속도 저하를 측정한 결과, 백그라운드 QoS는 베이스라인(baseline)에 근접함을 확인했습니다. 루트 PMU 측정값과 공개 IOReport 히스토그램은 하드웨어적 근거를 제공합니다. 이들은 소프트웨어 캐시 라인 크기(cache-line size)와 L1D 리필 섹터(refill sectors)를 구분하고, 페이지 오프셋(page-offset)에 의존적인 충돌 동작을 노출하며, 성능 코어(performance-core), 효율 코어(efficiency-core), 그리고 AGX의 수요를 분리합니다. 결과적으로 M4 Pro에서 재현 가능한 GPU 사후 캐시 변위 윈도우(post-GPU cache-displacement window)를 식별하고, 간단한 1패스(one-pass) 소프트웨어 복구 메커니즘을 정량화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Apple M4 Pro의 잔류 GPU 캐시 상태 (Residual GPU Cache State)

요약

핵심 포인트

댓글