arXiv논문2026. 06. 15. 11:20

멀티 LLM 에이전트 시스템의 컨텍스트 적응을 위한 그래프 기반 타겟 역전파 (Graph-based Target Back-Propagation)

요약

멀티 LLM 에이전트 시스템의 프롬프트 엔지니어링을 자동화하기 위한 GTBP 프레임워크를 제안합니다. DAG 기반의 그래프 구조를 통해 로컬 타겟 출력을 역방향으로 전파하여 단계별 프롬프트를 최적화하며, 기존 방식보다 뛰어난 성능과 수렴 안정성을 입증했습니다.

핵심 포인트

DAG 기반의 그래프 타겟 역전파(GTBP) 프레임워크 제안
멀티 에이전트 워크플로우 내 신용 할당 문제 해결
로컬 타겟 출력을 통한 단계별 프롬프트 업데이트 메커니즘
이론적 수렴 안정성 및 벤치마크 성능 우위 증명

컨텍스트 적응 (Context adaptation)은 모델 가중치를 수정하지 않고, 작업 피드백으로부터 조정 가능한 프롬프트 (tunable prompts)를 반복적으로 수정함으로써 LLM 기반 시스템의 프롬프트 엔지니어링 (prompt engineering)을 자동화합니다. 이 패러다임을 멀티 LLM 에이전트 시스템 (multi-LLM agentic systems)으로 확장하는 것은 매우 중요합니다. 기존 방법들은 부정확한 신용 할당 (credit assignment) 문제와 수렴 보장 (convergence guarantees)의 부재로 어려움을 겪고 있습니다. 본 논문에서는 유향 비순환 그래프 (directed acyclic graphs, DAG)로 모델링된 에이전트 워크플로우를 위한 컨텍스트 적응 프레임워크인 extbf{G}raph-based extbf{T}arget extbf{B}ack- extbf{P}ropagation (GTBP)를 제안합니다. GTBP는 로컬 타겟 출력 (local target outputs)을 워크플로우 그래프를 통해 역방향으로 전파하며, 타겟과 출력 간의 불일치 (target--output discrepancies)를 사용하여 단계별 프롬프트 업데이트 메커니즘을 가이드합니다. 이론적으로, 우리는 GTBP의 단계별 프롬프트 업데이트가 반복에 따라 안정화되며, 충분히 유능한 LLM 옵티마이저 (optimizer)가 전체 목적 함수 (overall objective)를 감소시킬 수 있음을 보여줍니다. 실증적으로, GTBP는 유사한 계산 비용을 유지하면서 세 가지 벤치마크 전반에서 강력한 베이스라인 (baselines)들을 일관되게 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티 LLM 에이전트 시스템의 컨텍스트 적응을 위한 그래프 기반 타겟 역전파 (Graph-based Target Back-Propagation)

요약

핵심 포인트

댓글