본문으로 건너뛰기

© 2026 Molayo

Phoronix헤드라인2026. 05. 22. 19:16

더 많은 GPU 연산 중단(Compute Hangs)으로부터 복구하기 위한 AMDGPU의 확장된 리셋 지원 예정

요약

AMDGPU 드라이버가 기존의 큐 리셋(queue reset)을 넘어 파이프 리셋(pipe reset) 기능을 지원할 예정입니다. 이를 통해 단일 큐 리셋으로 복구되지 않는 GPU 연산 중단 상황에서도 더 안정적인 복구가 가능해집니다.

핵심 포인트

  • 기존 큐 리셋의 한계를 극복하기 위한 파이프 리셋 지원 도입
  • 파이프 리셋 시 해당 파이프 내 모든 큐가 함께 리셋됨
  • 연산 큐 사용 구성 요소 간의 정교한 조율 작업 필요
  • 새로운 MES 펌웨어와의 호환성 및 버전 확인 필수

더 많은 GPU 연산 중단(Compute Hangs)으로부터 복구하기 위한 AMDGPU의 확장된 리셋 지원 예정

RADEON

AMDGPU 드라이버에는 중단(hangs)으로부터 복구하는 데 도움을 주는 큐 리셋(queue reset) 지원이 오랫동안 존재해 왔으나, 이제 단순히 단일 큐를 리셋하는 것만으로 GPU를 원하는 작동 상태로 되돌릴 수 없는 경우를 대비한 다음 단계의 복구 조치로 파이프 리셋(pipe reset) 지원 작업이 진행되고 있습니다.

AMDGPU 메인테이너(maintainer)인 Alex Deucher는 이 파이프 리셋 지원을 위한 대규모 패치 시리즈의 많은 패치를 작성했습니다. Deucher는 해당 기능에 대해 다음과 같이 상세히 설명했습니다:

"큐 리셋(queue reset)만으로는 중단된 큐를 복구할 수 없는 특정 코너 케이스(corner cases)들이 있습니다. 파이프 리셋(pipe reset)은 이러한 사례 중 일부를 복구할 수 있지만, 파이프가 리셋되면 해당 파이프의 모든 큐가 리셋됩니다. 이를 위해서는 연산 큐(compute queues)를 사용하는 모든 구성 요소 간의 조율이 필요합니다. 이 시리즈에는 꽤 많은 준비 작업이 포함되어 있으며, 그중 일부는 이전에 보낸 적이 있습니다. 이를 위한 또 다른 전제 조건은 userq 리셋 경로를 재작업하는 것이었습니다. 이제는 더 직관적일 것입니다. 마지막 패치는 새로운 MES 펌웨어가 출시되면 적절한 펌웨어 버전을 확인할 수 있도록 업데이트되어야 합니다. 오래된 MES 펌웨어를 사용하면 파이프 리셋이 작동했을 상황에서도 일부 사례에서 실패하여 어댑터 리셋(adapter reset)으로 이어질 수 있으므로, 현재의 동작과 유사하게 유지되어야 합니다."

AMD GPU 연산 워크로드에 대한 이 파이프 리셋 지원에 관심이 있는 분들은 Linux에서 AMD GPU 복구 프로세스를 향상시키기 위한 최신 작업이 담긴 이 패치 시리즈를 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Phoronix의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0