arXiv논문2026. 06. 16. 10:51

지식 기반의 멀티 에이전트 LLM 트레이스 제로-리플레이 디버깅 (Knowledge-Based Zero-Replay Debugging of

요약

멀티 에이전트 LLM 시스템의 디버깅 비용을 줄이기 위해 지식 그래프를 활용한 '제로-리플레이' 예측 방식을 제안합니다. 리플레이를 직접 수행하지 않고도 어떤 이벤트가 시스템에 큰 영향을 미치는지 예측하여 디버깅 효율성을 극대화합니다.

핵심 포인트

멀티 에이전트 트레이스 디버깅의 높은 비용 문제 해결
지식 그래프를 통한 이벤트의 구조적/잠재적 특징 추출
리플레이 없이 효과적인 이벤트를 예측하는 BranchPoint-Latent 제안
기존 방식 대비 로컬라이제이션 성능(Branch Recall@5) 향상

멀티 에이전트 거대 언어 모델 (LLM) 시스템의 신뢰할 수 있는 운영은 긴 실행 트레이스 (execution traces)를 디버깅하는 것에 달려 있으며, 여기서 인과적으로 결정적인 소수의 이벤트들은 메시지, 경로 (routes), 메모리 쓰기 (memory writes), 그리고 도구 호출 (tool calls)의 비구조화된 로그 속에 묻혀 있습니다. 표준적인 도구는 반사실적 리플레이 (counterfactual replay; 각 이벤트의 효과를 측정하기 위해 궤적을 되감고, 수정하고, 다시 실행하는 것)이지만, 그 비용은 후보 이벤트의 수에 따라 선형적으로 증가하므로 대규모 환경에서 철저한 리플레이를 수행하는 것은 불가능합니다. 우리는 트레이스 디버깅을 지식 기반의 의사결정 지원 문제로 정의합니다. 각 트레이스는 경로 (routing), 메모리 (memory), 도구 사용 (tool-use), 불확실성 (uncertainty), 그리고 잠재적 증거 (latent evidence)에 대한 구조화된 이벤트 지식 그래프 (knowledge graph)로 컴파일되며, 보정된 예측기 (calibrated predictor)가 희소한 리플레이 예산이 어디에 사용되어야 할지를 결정합니다. 우리는 새로운 리플레이 오라클 (replay oracle)을 제안하는 것이 아니라, 리플레이 비용을 지불하지 않고도 그 결과를 예측하는 방법을 제안합니다. 우리는 제로-리플레이 반사실적 효과 예측 (zero-replay counterfactual-effect prediction)을 공식화합니다: 고정된 예산 하의 트레이스가 주어졌을 때, 리플레이가 수행되기 전에 오라클이 어떤 이벤트를 높은 효과 (high-effect)로 표시할지 예측합니다. BranchPoint-Latent는 지식 그래프의 관찰 가능한 (observable), 구조적 (structural), 불확실성 (uncertainty), 그리고 잠재적 (latent) 특징들에 대한 경량 예측기입니다. 37개의 트레이스 패밀리에 대해 결정론적 리플레이 오라클 (deterministic replay oracle)을 기준으로 보정했을 때, 단일 학습-순위 지정 (learning-to-rank) 그래디언트 부스팅 예측기는 오라클 리플레이 비용 없이 홀드아웃 (held-out) 패밀리에 대한 트레이스당 로컬라이제이션 (Branch Recall@5)을 0.73에서 0.93으로 높였습니다. 우리는 보편적인 우월성을 주장하기보다, 저렴한 그래프 중심성 (graph centrality)이 충분한 경우와 학습된 증거 (learned evidence)가 필요한 경우를 규명합니다. 그 결과물은 AI 신뢰성 디버깅을 위한 감사 가능하고 비용 효율적인 의사결정 지원 시스템이며, 재현 가능한 산출물과 함께 비용-정확도 경계면 (cost-accuracy frontier) 위에 명시적으로 위치합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지식 기반의 멀티 에이전트 LLM 트레이스 제로-리플레이 디버깅 (Knowledge-Based Zero-Replay Debugging of

요약

핵심 포인트

댓글