arXiv논문2026. 06. 19. 12:15

메모리 기반 에이전트의 자기 진화를 위한 한계 이득 축적 (Marginal Advantage Accumulation)

요약

메모리 기반 에이전트의 자기 진화를 위해 배치 간 모순된 피드백 문제를 해결하는 MAA(Marginal Advantage Accumulation) 기법을 제안합니다. 차분 신호와 EMA를 활용해 작업별 증거를 축적함으로써 안정적인 학습을 가능하게 합니다.

핵심 포인트

배치 간 모순된 피드백 문제를 해결하기 위한 MAA 메커니즘 제안
정렬 가능성과 비교 가능성을 기반으로 한 구조적 조건 공식화
지수 이동 평균(EMA)을 통한 작업당 부호 있는 증거 축적
기존 방식 대비 토큰 소비량을 약 75% 절감
다양한 벤치마크와 모델 설정에서 최상위 성능 달성

배치 스타일의 궤적 증류 (batch-style trace distillation)에서는 동일한 메모리 작업이 서로 다른 배치에 걸쳐 모순된 피드백을 받을 수 있습니다. 기존 방법들은 배치 간 작업 수준의 증거 축적 메커니즘이 부족하여, 안정적으로 효과적인 작업과 우연한 적중을 구분하는 것이 불가능합니다. 본 논문은 이 요구사항을 정렬 가능성 (alignability)과 비교 가능성 (comparability)이라는 두 가지 구조적 조건으로 공식화하고, 한계 이득 축적 (Marginal Advantage Accumulation, MAA)을 제안합니다. MAA는 배치 간 비교가 가능하도록 차분 신호 (differential signals)를 구축하고, 지수 이동 평균 (EMA)을 통해 작업당 부호가 있는 증거를 축적하며, 의미론적 동일성 병합 (semantic identity merging)을 통해 배치 간 추적 가능성을 보장합니다. 사후 처리 아키텍처로서, MAA는 4개의 벤치마크와 4개의 대상 모델에 걸친 16개 설정 중 14개에서 최고의 결과를 달성했습니다. 이는 기존의 배치 수준 증류 베이스라인을 지속적으로 능가하고 대부분의 설정에서 온라인 대안과 대등하거나 이를 능가하는 동시에, 최적화 단계의 토큰 소비를 약 75% 감소시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

메모리 기반 에이전트의 자기 진화를 위한 한계 이득 축적 (Marginal Advantage Accumulation)

요약

핵심 포인트

댓글