자체 개선형 다중 에이전트 시스템 최적화 프레임워크 (TPGO)
요약
본 논문은 복잡한 다중 에이전트 시스템(MAS) 설계를 자동화하고 최적화하는 새로운 프레임워크인 '텍스트 기반 파라미터 그래프 최적화 (Textual Parameter Graph Optimization, TPGO)'를 제안합니다. 기존의 방법들이 단순한 평면적인 프롬프트 튜닝에 머물러 MAS의 복잡한 상호작용 구조를 다루지 못하고 정적이라는 한계를 가졌습니다. TPGO는 MAS를 에이전트, 도구, 워크플로우가 모듈화된 노드로 구성된 '텍스트 기반 파라미터 그래프 (TPG)'로 모델링합니다. 특히, 실행 과정에서 얻은 자연어 피드백을
핵심 포인트
- TPGO는 MAS를 TPG로 모델링하여 에이전트와 도구를 모듈화하고 최적화할 수 있게 합니다.
- 실행 흔적(execution traces)에서 구조화된 자연어 피드백인 '텍스트 기울기 (textual gradients)'를 추출해 실패 지점을 정확히 파악합니다.
- 핵심 전략인 GRAO는 과거의 최적화 경험을 학습하여 스스로 개선하는 메타 학습 방식을 구현했습니다.
다중 에이전트 시스템(MAS) 설계 및 최적화는 매우 복잡하고 노동 집약적인 '에이전트 엔지니어링 (Agent Engineering)' 과정입니다. 기존의 자동 최적화 방법들은 단순한 프롬프트 튜닝에 국한되어 MAS 내부의 복잡한 상호작용 구조를 효과적으로 다루기 어렵습니다.
이를 해결하기 위해, 본 연구는 시스템이 스스로 진화하는 능력을 갖춘 '텍스트 기반 파라미터 그래프 최적화 (Textual Parameter Graph Optimization, TPGO)' 프레임워크를 제시합니다. TPGO는 MAS를 에이전트, 도구, 워크플로우가 독립적인 노드로 구성된 '텍스트 기반 파라미터 그래프 (TPG)'로 모델링합니다.
진화 과정을 안내하기 위해, 실행 과정의 흔적(execution traces)으로부터 구조화된 자연어 피드백인 '텍스트 기울기 (textual gradients)'를 도출하여 실패 지점을 정확히 진단하고 세밀한 수정안을 제시할 수 있습니다. 프레임워크의 핵심은 '그룹 상대 에이전트 최적화 (Group Relative Agent Optimization, GRAO)'라는 새로운 메타 학습 전략입니다. GRAO는 과거의 성공과 실패 경험을 분석하여 효과적인 업데이트 방식을 스스로 학습함으로써 시스템이 자기 개선(self-improving)할 수 있게 만듭니다.
GAIA나 MCP-Universe 같은 복잡한 벤치마크 실험 결과, TPGO가 기존 최첨단 에이전트 프레임워크의 성능을 크게 향상시키며 자동적이고 자체 개선적인 최적화를 통해 높은 성공률을 달성했음을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기