본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:34

CANTANTE: 대조적 신용 할당 (Contrastive Credit Attribution)을 통한 에이전트 시스템 최적화

요약

본 논문은 LLM 기반 멀티 에이전트 시스템의 최적화 문제를 근본적인 '신용 할당(credit-assignment)' 문제로 정의하고, 이를 해결하기 위한 프레임워크인 CANTANTE를 제안합니다. CANTANTE는 동일한 쿼리에 대해 여러 결합 구성의 롤아웃을 대조하여, 시스템 수준의 보상을 개별 에이전트별 업데이트 신호로 분해하는 방식을 사용합니다. 이 방법은 프로그래밍(MBPP), 수학적 추론(GSM8K), 멀티홉 질의응답(HotpotQA) 등 다양한 벤치마크에서 기존 최적화 도구 대비 높은 성능 향상과 낮은 추론 비용을 입증했습니다.

핵심 포인트

  • LLM 기반 멀티 에이전트 시스템의 자동 최적화는 신용 할당 문제로 접근해야 한다.
  • CANTANTE 프레임워크는 대조적(contrastive) 방식을 사용하여 시스템 보상을 개별 에이전트 업데이트 신호로 분해한다.
  • 에이전트 프롬프트를 학습 가능한 시스템 파라미터로 취급하여 최적화가 가능하다.
  • MBPP, GSM8K, HotpotQA 등 주요 벤치마크에서 CANTANTE는 기존 도구 대비 높은 성능 향상과 효율성을 보였다.

LLM (Large Language Model) 기반의 멀티 에이전트 시스템 (multi-agent systems)은 소프트웨어 엔지니어링, 예측 모델링, 검색 증강 생성 (Retrieval-Augmented Generation, RAG)과 같은 복잡한 실세계 작업에서 강력한 성능을 입증해 왔습니다. 그러나 에이전트의 행동을 제어하는 파라미터(parameter)는 로컬(local) 단위인 반면, 점수는 시스템 수준(system level)에서만 확인할 수 있기 때문에 이들의 구성을 자동화하는 것은 구조적인 과제로 남아 있습니다. 우리는 이러한 시스템을 최적화하는 것이 근본적으로 신용 할당 (credit-assignment) 문제라고 주장합니다. 따라서 우리는 동일한 쿼리(query)에 대해 여러 결합 구성 (joint configurations)의 롤아웃 (rollouts)을 대조함으로써, 시스템 수준의 보상을 에이전트별 업데이트 신호로 분해하는 프레임워크인 CANTANTE를 소개합니다. 우리는 에이전트 프롬프트 (prompt)를 학습 가능한 시스템 파라미터로 취급하여, 이를 프롬프트 최적화 (prompt optimization)를 위해 구현하였습니다. 우리는 프로그래밍 (MBPP), 수학적 추론 (GSM8K), 그리고 멀티홉 질의응답 (HotpotQA)에서 GEPA 및 MIPROv2를 대상으로 CANTANTE를 평가했습니다. 이러한 벤치마크 전반에서 CANTANTE는 평가된 모든 최적화 도구(optimizer) 중 가장 높은 평균 순위를 달성했으며, 최적화되지 않은 프롬프트보다 일관되게 우수한 성능을 보였습니다. CANTANTE는 가장 강력한 베이스라인(baseline) 대비 MBPP에서 +18.9%포인트, GSM8K에서 +12.5%포인트의 성능 향상을 보였으며, 추론 비용 (inference cost)은 더 낮았습니다. HotpotQA에서는 가장 강력한 베이스라인의 1 표준 편차 (standard deviation) 이내의 성능을 유지했습니다. 결정적으로, 우리의 신용 상관관계 (credit correlation) 분석은 할당기 (attributer)가 글로벌 시스템 점수를 단순히 반복하는 것이 아니라, 의미 있는 에이전트별 신호를 생성한다는 것을 확인해 줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0