STAR-PólyaMath: 지속적인 메타 전략적 감독 하의 멀티 에이전트 추론

프런티어 AI (Frontier AI) 모델과 멀티 에이전트 시스템 (multi-agent systems)은 수학적 추론 (mathematical reasoning) 분야에서 상당한 발전을 이끌어냈습니다. 그러나 확장된 장기 추론 (long-horizon reasoning)이 필요한 문제의 경우, 기존 시스템은 환각 누적 (hallucination accumulation), 메모리 파편화 (memory fragmentation), 그리고 추론과 도구 간의 불균형한 트레이드오프 (reasoning-tool trade-offs)와 같은 근본적인 신뢰성 문제로 인해 계속해서 어려움을 겪고 있습니다. 본 논문에서는 메타 수준의 감독 (meta-level supervision)과 구조화된 추론자-검증자 (Reasoner-Verifier) 상호작용을 통해 이러한 과제들을 체계적으로 해결하는 멀티 에이전트 프레임워크인 STAR-PólyaMath를 소개합니다. STAR-PólyaMath는 중첩된 도전-단계-재계획 (challenge-step-replan) 루프를 가진 오케스트레이션된 상태 머신 (orchestrated state machine)으로 구조화되어 있으며, 제어와 추론을 분리하고 역추적 (trace-back) 및 재계획 (re-planning)을 통해 오류 전파를 제한하는 추론이 없는 (reasoning-free) Python 오케스트레이터에 의해 관리됩니다. 우리의 핵심 혁신은 시도 간 메모리 (cross-attempt memory)를 유지하고 고수준의 전략적 가이드라인이나 의무적 지시를 내림으로써 메타 수준의 제어를 수행하는 지속적인 메타 전략가 (Meta-Strategist)입니다. 이를 통해 시스템은 정체되거나 도구에 과도하게 의존하는 대신 비생산적인 루프에서 벗어날 수 있습니다. STAR-PólyaMath는 8개의 최상위 경진대회 벤치마크인 AIME 2025-2026, MathArena Apex Shortlist, MathArena Apex 2025, Putnam 2025, IMO 2025, HMMT February 2026, 그리고 USAMO 2026에서 최첨단 (state-of-the-art) 결과를 달성했습니다. 이 모델은 AIME, Putnam, HMMT에서 만점을 기록했으며, Apex 2025에서 가장 큰 격차를 보이며 가장 강력한 베이스라인인 GPT-5.5의 80.21% 대비 93.75%의 점수를 기록했습니다. 절제 연구 (Ablation studies) 결과, 핵심 구성 요소를 제거하거나 혼합 백본 (mixed backbones)으로 교체할 경우 성능이 일관되게 약화되는 것으로 보아, 이러한 이득은 모델 수준의 다양성이 아닌 프레임워크의 오케스트레이션에서 비롯됨을 보여줍니다. 코드는 https://github.com/Julius-Woo/STAR-PolyaMath 에서 확인할 수 있습니다.

Insights

STAR-PólyaMath: 지속적인 메타 전략적 감독 하의 멀티 에이전트 추론

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek