CANTANTE: 대조적 신용 할당 (Contrastive Credit Attribution)을 통한 에이전트 시스템 최적화

LLM (Large Language Model) 기반의 멀티 에이전트 시스템 (multi-agent systems)은 소프트웨어 엔지니어링, 예측 모델링, 검색 증강 생성 (Retrieval-Augmented Generation, RAG)과 같은 복잡한 실세계 작업에서 강력한 성능을 입증해 왔습니다. 그러나 에이전트의 행동을 제어하는 파라미터(parameter)는 로컬(local) 단위인 반면, 점수는 시스템 수준(system level)에서만 확인할 수 있기 때문에 이들의 구성을 자동화하는 것은 구조적인 과제로 남아 있습니다. 우리는 이러한 시스템을 최적화하는 것이 근본적으로 신용 할당 (credit-assignment) 문제라고 주장합니다. 따라서 우리는 동일한 쿼리(query)에 대해 여러 결합 구성 (joint configurations)의 롤아웃 (rollouts)을 대조함으로써, 시스템 수준의 보상을 에이전트별 업데이트 신호로 분해하는 프레임워크인 CANTANTE를 소개합니다. 우리는 에이전트 프롬프트 (prompt)를 학습 가능한 시스템 파라미터로 취급하여, 이를 프롬프트 최적화 (prompt optimization)를 위해 구현하였습니다. 우리는 프로그래밍 (MBPP), 수학적 추론 (GSM8K), 그리고 멀티홉 질의응답 (HotpotQA)에서 GEPA 및 MIPROv2를 대상으로 CANTANTE를 평가했습니다. 이러한 벤치마크 전반에서 CANTANTE는 평가된 모든 최적화 도구(optimizer) 중 가장 높은 평균 순위를 달성했으며, 최적화되지 않은 프롬프트보다 일관되게 우수한 성능을 보였습니다. CANTANTE는 가장 강력한 베이스라인(baseline) 대비 MBPP에서 +18.9%포인트, GSM8K에서 +12.5%포인트의 성능 향상을 보였으며, 추론 비용 (inference cost)은 더 낮았습니다. HotpotQA에서는 가장 강력한 베이스라인의 1 표준 편차 (standard deviation) 이내의 성능을 유지했습니다. 결정적으로, 우리의 신용 상관관계 (credit correlation) 분석은 할당기 (attributer)가 글로벌 시스템 점수를 단순히 반복하는 것이 아니라, 의미 있는 에이전트별 신호를 생성한다는 것을 확인해 줍니다.

Insights

CANTANTE: 대조적 신용 할당 (Contrastive Credit Attribution)을 통한 에이전트 시스템 최적화

요약

핵심 포인트

댓글

현재 GitHub 트렌딩 1위 저장소가 단돈 0.02달러로 70초 분량의 시네마틱 쇼츠를 제작했습니다

React Native Apple Authentication, iOS와 더불어 Android 지원 시작: 완전한 타입 안정성(Type

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.

현재 GitHub 트렌딩 1위 저장소가 단돈 0.02달러로 70초 분량의 시네마틱 쇼츠를 제작했습니다

React Native Apple Authentication, iOS와 더불어 Android 지원 시작: 완전한 타입 안정성(Type

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.