본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 14:08

Concordia: 결함 허용(Fault-Tolerant) LLM 추론을 위한 JIT 컴파일된 지속성 커널 체크포인팅

요약

Concordia는 LLM 에이전트의 장시간 실행 중 발생하는 GPU 장애에 대비하여 결함 허용(Fault-Tolerance)을 제공하는 새로운 런타임입니다. JIT 컴파일된 지속성 커널을 통해 KV 캐시와 같은 상태를 효율적으로 체크포인팅하고 복구합니다.

핵심 포인트

  • GPU 상주 실행 컨텍스트를 활용한 결함 허용 메커니즘 제안
  • PTX 및 SASS 레벨 인스트루멘테이션을 통한 커널 경계 삽입
  • JIT 컴파일된 델타 체크포인트 핸들러로 효율적인 상태 관리
  • 락 프리 링 버퍼와 CXL/DRAM을 활용한 빠른 복구 프로세스

장시간 실행되는 LLM 에이전트는 KV 캐시(KV caches), 요청 스케줄러(request schedulers), 통신 상태(communication state), 그리고 때로는 온라인 어댑터(online adapters)와 같은 귀중한 상태를 GPU에 상주 시킵니다. GPU 또는 통신 장치의 장애 발생 후 이 상태를 잃게 되면 수 분에서 수 시간 분량의 작업이 폐기될 수 있습니다. 그러나 기존의 복구 메커니즘은 전체 서빙 스택을 재시작하거나, 모든 어텐션(attention) 및 런타임 구성 요소 내부에 애플리케이션별 체크포인트 로직을 요구합니다. 본 논문은 이러한 워크로드에 대한 결함 허용(fault tolerance)을 위해 GPU 상주 실행 컨텍스트(GPU-resident execution context)가 필요하다고 주장합니다. 즉, 체크포인트 훅(checkpoint hooks)은 장치 동기화 지점(device synchronization points)에서 실행되어야 하며, 프레임워크와 라이브러리가 실제로 실행하는 바이너리 커널(binary kernels)을 관찰해야 하고, 호스트 CPU를 임계 경로(critical path)에 두지 않고 복구되어야 합니다. 우리는 결함 허용 LLM 추론을 위한 기질(substrate)로서 장치 상주 지속성 커널(device-resident persistent kernel)을 사용하는 런타임인 Concordia를 제시합니다. Concordia는 GPU 모듈 로딩에 개입하며 PTX 및 SASS 레벨의 인스트루멘테이션(instrumentation)을 지원하여, 체크포인트 및 일시 중지 훅(pause hooks)이 프레임워크 코드와 라이브러리 경계 아래에 삽입될 수 있도록 합니다. 등록된 각 LLM 상태 영역에 대해, Concordia는 특화된 델타 체크포인트 핸들러(delta-checkpoint handler) — 예를 들어 KV 블록 스캐너(KV-block scanner), 어댑터 페이지 스캐너(adapter-page scanner), 또는 복구 적용기(recovery applier) — 를 JIT 컴파일하여 지속성 커널의 연산자 테이블(operator table)에 핫스왑(hot-swaps)합니다. 지속성 커널은 연산(compute), 체크포인트(checkpoint), 추가 로그(append-log), 복구(recovery) 작업이 담긴 락 프리 링 버퍼(lock-free ring buffer)를 소비하므로, 동일한 상시 실행형 실행기(always-on executor)가 더티 페이지 탐지(dirty-page detection)를 트리거하고, 델타(deltas)를 스테이징하며, 커밋된 레코드를 CXL 메모리 또는 호스트 DRAM 내의 CPU 가시적 로그에 추가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0