arXiv논문2026. 06. 04. 12:03

멀티 에이전트 추론에서의 스트리밍 통신 (Streaming Communication in Multi-Agent Reasoning)

요약

멀티 에이전트 추론 시 발생하는 지연 시간을 줄이기 위해 생성 즉시 데이터를 전달하는 StreamMA 프레임워크를 제안합니다. 파이프라이닝을 통해 속도를 높일 뿐만 아니라, 신뢰도 높은 초기 단계를 활용하여 추론의 효과성까지 향상시킵니다.

핵심 포인트

StreamMA: 생성 후 전달 패러다임을 스트리밍 방식으로 개선
파이프라이닝을 통한 엔드 투 엔드 지연 시간 단축
초기 단계의 높은 신뢰도를 활용한 추론 품질 향상
에이전트당 단계를 늘리는 '단계 수준 스케일링 법칙' 발견

멀티 에이전트 추론 (Multi-agent reasoning) 시스템은 엔드 투 엔드 지연 시간 (end-to-end latency)이 파이프라인 깊이에 따라 선형적으로 증가하게 만드는 "생성 후 전달 (generate-then-transfer)" 패러다임을 채택하고 있습니다. 본 논문에서는 각 추론 단계를 생성되는 즉시 다운스트림 에이전트 (downstream agents)로 스트리밍하여, 인접한 에이전트들을 파이프라이닝 (pipelining)함으로써 지연 시간을 줄이는 멀티 에이전트 추론 시스템인 StreamMA를 소개합니다. 놀랍게도 이러한 파이프라이닝은 효과성 (effectiveness) 또한 향상시킵니다. 다단계 추론 (multi-step reasoning)의 품질은 균일하지 않으며 초기 단계가 후기 단계보다 더 신뢰할 수 있기 때문에, 전체 체인 (full chain) 대신 이러한 신뢰할 수 있는 초기 단계들을 활용함으로써 오류를 유발하기 쉬운 후기 단계가 다운스트림 에이전트를 오도하는 것을 방지할 수 있습니다. 우리는 스트림 (stream), 직렬 (serial), 단일 (single) 프로토콜에 대한 최초의 폐쇄형 결합 분석 (closed-form joint analysis)을 통해 두 가지 장점을 공식화하고, 효과성 순위, 속도 향상 상한선 (speedup upper bound), 그리고 비용 비율 (cost ratio)을 도출했습니다. 수학, 과학, 코드를 아우르는 8개의 추론 벤치마크, 두 개의 프런티어 LLM (Claude Opus 4.6 및 GPT-5.4), 그리고 세 가지 토폴로지 (Chain, Tree, Graph) 전반에 걸쳐 StreamMA는 두 베이스라인 (baselines)을 모두 능가했습니다 (평균 +7.3 pp, HMMT 2026에서 최대 +22.4 pp; Claude Opus 4.6-high 기준). 이러한 기여 외에도, 우리는 "단계 수준 스케일링 법칙 (step-level scaling law)"을 발견했습니다. 즉, 에이전트당 단계 (per-agent steps)를 늘리는 것은 효과성과 효율성을 모두 일관되게 향상시키며, 이는 에이전트 수 스케일링 (agent-count scaling)과 직교하며 결합 가능한 새로운 스케일링 차원입니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티 에이전트 추론에서의 스트리밍 통신 (Streaming Communication in Multi-Agent Reasoning)

요약

핵심 포인트

댓글