Agent Capsules: 멀티 에이전트 LLM 파이프라인을 위한 품질 게이트링粒度 제어

N 개 에이전트를 가진 멀티 에이전트 파이프라인은 일반적으로 실행마다 N 개의 LLM 호출을 발생시킵니다. 에이전트를 더 적은 호출로 병합하는 (복합 실행) 것은 토큰 절감의 약속을 하지만, 무작위 병합 호출은 도구 손실과 프롬프트 압축을 통해 품질을 침묵적으로 저하시킵니다. 우리는 Agent Capsules 을 제시합니다. 이는 경험적 품질 제약을 가진 최적화 문제로 멀티 에이전트 파이프라인 실행을 취급하는 적응형 실행 런타임입니다. 런타임은 그룹별 조정 오버헤드를 계량하고, 구성 기회를 점수화하며, 세 가지 복합 실행 전략 중 하나를 선택합니다. 그리고 모든 모드 전환을 롤링 평균 출력 품질에 게이트합니다.

제어된 부정적 결과는 병합 호출에 더 많은 컨텍스트를 주입하면 압축을 완화하는 것이 아니라 악화시킴을 확인합니다. 따라서 프레임워크의 에스컬레이션 레이어 (표준, 그 다음 두 단계, 그리고 순차적) 는 병합 프롬프트를 다시 쓰지 않고 에이전트 디스패치로 이동함으로써 품질을 회복합니다.

LLM 판정된 품질에서, 컨트롤러는 모든 측정된 (모델, 그룹, 모드) 셀에 대해 손으로 조정된 오라클과 일치합니다. 오라클이 수행할 때마다 복합 실행을 라우팅하고, 품질이 바닥선을 통과하지 못할 때마다 미세 모드로 되돌립니다. 모델별 구성 없이.

14 개 에이전트 경쟁 지능 파이프라인의 LangGraph 구현에 대한 손으로 제작된 구현과 비교했을 때, Agent Capsules 은 51% 적은 모드 입력 토큰을 사용하고 있으며 +0.020 의 품질에서 42% 적은 복합 모드 입력 토큰을 사용합니다.

5 개 에이전트 Due Diligence 파이프라인의 DSPy 구현과 비교했을 때, 프레임워크는 컴파일된 DSPy 와 품질 평등 상태에서 19% 적은 토큰을 사용하고 있으며 +0.052 의 품질에서 MIPROv2 보다 68% 적은 토큰을 사용합니다.

복합 모드가 발동하기 전에, 런타임은 자동 정책 해결, 캐시 정렬 프롬프트, 그리고 토폴로지 인식 컨텍스트 주입을 통해 효율성을 제공합니다. 이는 훈련 데이터나 파이프라인별 엔지니어링 없이 손으로 조정된 및 컴파일 타임 기준과 일치합니다.

Insights

Agent Capsules: 멀티 에이전트 LLM 파이프라인을 위한 품질 게이트링粒度 제어

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화