arXiv논문2026. 05. 01. 13:03

Crab: 에이전트 샌드박스를 위한 의미 인식 체크포인트/복원 런타임

요약

Crab은 자율 에이전트가 작동하는 샌드박스 환경에서 상태를 효율적으로 체크포인트 및 복원(C/R)하기 위한 투명 호스트 측 런타임을 제안합니다. 기존 방식의 비효율성(애플리케이션 수준만 보거나, 매 턴마다 전체 체크포인트를 수행하는 것)을 극복하고, 에이전트와 OS 간의 의미적 격차를 해소하는 것이 핵심입니다. eBPF 기반 인스펙터와 조정기 등을 활용하여 복구에 필요한 상태 변화만을 식별적으로 포착함으로써, 복원 정확도를 높이고 체크포인트 오버헤드를 획기적으로 줄였습니다.

핵심 포인트

자율 에이전트의 신뢰성 및 안전한 RL 분기를 위해 효율적인 상태 체크포인트/복원(C/R) 메커니즘이 필수적입니다.
기존 C/R 방식은 애플리케이션 레벨에만 국한되거나, 모든 턴마다 전체 체크포인트를 수행하여 비효율적이었습니다.
Crab은 eBPF 기반 인스펙터와 조정기를 사용하여 에이전트-OS 간의 의미적 격차를 연결하는 투명 호스트 측 솔루션을 제공합니다.
실험 결과, Crab은 복구 정확도를 8%에서 100%로 높이는 동시에 체크포인트 트래픽을 최대 87%까지 줄여 성능과 효율성을 모두 확보했습니다.

자율 에이전트는 파일 시스템, 프로세스, 런타임 아티팩트를 아우르는 상태를 가진 샌드박스 컨테이너 및 마이크로 VM 을 통해 작동합니다. 이 상태의 체크포인트 및 복원 (C/R) 은 내결함성, 실시간 실행, 강화학습 (RL) 롤아웃 분기, 안전한 롤백에 필요합니다. 그러나 기존 접근 방식은 두 가지 극단으로 나뉩니다: 애플리케이션 수준의 복구 (application-level recovery) 는 채팅 이력을 보존하지만 OS 측면의 효과를 놓치고, 반면 전 주기별 체크포인트링 (full per-turn checkpointing) 은 정확하지만 밀집된 공동 배치 (dense co-location) 환경에서는 비용이 너무 큽니다. 근본적인 원인은 에이전트-OS 간의 의미적 간격 (agent-OS semantic gap) 입니다: 에이전트 프레임워크는 도구 호출은 보지만 OS 효과를 보지 못하며, OS 는 상태 변화를 보지만 복구 관련성을 판단하기 위한 턴 수준의 컨텍스트가 부족합니다. 이 간격은 막대한 희소성을 숨깁니다: 에이전트 턴의 75% 이상은 복구와 관련된 상태를 생성하지 않으므로 대부분의 체크포인트는 불필요합니다. Crab (Checkpoint-and-Restore for Agent SandBoxes) 은 에이전트나 C/R 백엔드를 수정하지 않고도 이 간격을 연결하는 투명 호스트 측 런타임입니다. eBPF 기반의 인스펙터는 각 턴의 OS 가시적 효과를 분류하여 체크포인트 그레인유리티를 결정하고, 조정기는 체크포인트를 턴 경계와 정렬하며 C/R 을 LLM 대기 시간과 중첩시키고, 호스트 범위의 엔진은 공동 배치된 샌드박스 간 체크포인트 트래픽을 스케줄링합니다. 쉘 집약적 및 코드 수정 워크로드에서 Crab 는 복구 정확도를 8% (채팅 전용) 에서 100% 로 높이고, 체크포인트 트래픽을 최대 87% 줄이며, 오류 없는 실행 시간의 1.9% 이내로 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Crab: 에이전트 샌드박스를 위한 의미 인식 체크포인트/복원 런타임

요약

핵심 포인트

댓글