arXiv논문2026. 06. 24. 10:14

ReM-MoA: 추론 메모리가 Mixture-of-Agents 스케일링을 지속시킨다

요약

ReM-MoA는 기존 Mixture-of-Agents(MoA)가 층이 깊어질수록 성능이 정체되는 문제를 해결하기 위해 제안된 메모리 증강 프레임워크입니다. 순위 지정 추론 메모리와 큐레이션된 다양화 메모리 라우팅을 통해 추론 시간 스케일링을 지속시킵니다.

핵심 포인트

추론 흔적을 저장하고 순위를 매기는 Ranked Reasoning Memory 도입
탐색 다양성을 보존하며 고품질 추론을 전파하는 메모리 라우팅 방식 제안
수학, 논리, 코드 등 5개 벤치마크에서 기존 MoA 모델 능가
계층 간 추론 메모리가 멀티 에이전트 스케일링의 핵심임을 입증

Mixture-of-Agents (MoA) 아키텍처는 여러 LLM 에이전트를 계층적 추론 파이프라인 (reasoning pipelines)으로 구성함으로써 추론 시간 스케일링 (inference-time scaling)을 개선합니다. 그러나 기존의 MoA 변형 모델들은 깊이 (depth)가 증가함에 따라 성능 향상을 지속하지 못하고, 성능 저하, 조기 정체 또는 포화 현상을 보입니다. 우리는 두 가지 메커니즘을 통해 스케일링을 지속하는 메모리 증강 (memory-augmented) MoA 프레임워크인 ReM-MoA를 제안합니다: (1) 비교 검토 에이전트 (Reviewer Agent)를 사용하여 모든 계층의 추론 흔적 (reasoning traces)을 지속적으로 저장하고 순위를 매기는 순위 지정 추론 메모리 (Ranked Reasoning Memory), 그리고 (2) 서로 다른 에이전트에게 성공 및 실패한 흔적의 다양한 조합을 노출하여, 고품질 추론을 전파하는 동시에 탐색 다양성 (exploration diversity)을 보존하는 큐레이션된 다양화 메모리 라우팅 (Curated Diversified Memory Routing) 방식입니다. 나아가 우리는 최첨단 모델 (frontier-model)의 감독을 통해 순위 품질을 향상시키는 선택적 멀티 도메인 검토자 증류 (Reviewer distillation) 파이프라인을 도입합니다. 수학, 형식 논리 (formal logic), 코드, 지식 및 상식에 걸친 5가지 추론 벤치마크 전반에서, ReM-MoA는 깊이 및 너비 스케일링 (depth and width scaling) 모두에서 기존 MoA 변형 모델들을 일관되게 능가하며, 그 우위는 깊이가 깊어질수록 확대됩니다. 이는 구조화된 계층 간 추론 메모리 (cross-layer reasoning memory)가 확장 가능한 멀티 에이전트 추론을 위한 핵심적인 누락된 메커니즘임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ReM-MoA: 추론 메모리가 Mixture-of-Agents 스케일링을 지속시킨다

요약

핵심 포인트

댓글