SWE-MeM: 장기적 작업 수행 코딩 에이전트를 위한 적응형 메모리 관리 학습
요약
SWE-MeM은 장기적 소프트웨어 엔지니어링 작업을 수행하는 에이전트를 위한 적응형 메모리 관리 학습 프레임워크입니다. 에이전트가 컨텍스트 예산에 맞춰 메모리 압축 시점과 방식을 스스로 결정하도록 학습시켜 성능과 효율성을 동시에 높였습니다.
핵심 포인트
- 에이전트가 상황에 따라 메모리 압축을 결정하는 유연한 도구 제공
- Memory-aware GRPO를 통한 메모리 관리 및 이슈 해결 능력 공동 최적화
- SWE-Bench Verified에서 기존 베이스라인 대비 높은 해결률 달성
- 제한된 컨텍스트 예산 내에서 장기 작업 수행 능력 극대화
장기적 작업 수행 (Long-horizon) 소프트웨어 엔지니어링 에이전트는 제한된 컨텍스트 예산 (context budgets) 하에서 길고 노이즈가 많은 상호작용 이력을 관리해야 하는 경우가 많습니다. 기존의 메모리 관리 방법들은 일반적으로 정적인 압축 워크플로우 (static compression workflows)에 의존하거나, 압축 시점과 세밀도 (granularity)에 엄격한 제약을 가합니다. 더욱이, 이러한 접근 방식들은 토큰 사용량을 줄이면서 성능을 향상시키기 위해 메모리 관리와 이슈 해결 (issue resolution) 능력을 공동으로 최적화하는 데 실패합니다. 우리는 소프트웨어 엔지니어링 에이전트를 위한 선제적이고 온디맨드(on-demand) 방식의 메모리 관리를 위한 학습 프레임워크인 SWE-MeM을 제시합니다. SWE-MeM은 에이전트가 궤적 상태 (trajectory state), 작업 진행 상황, 그리고 남은 컨텍스트 예산에 따라 언제, 무엇을, 어떻게 압축할지 결정할 수 있게 하는 유연한 메모리 도구를 제공합니다. 우리는 합성된 선제적 메모리 관리 궤적 (proactive memory-management trajectories)과 Memory-aware GRPO를 사용하여 에이전트를 학습시키며, 이는 메모리 인지 궤적 분할 (memory-aware trajectory splitting)과 단계별 크레딧 할당 (step-level credit assignment)을 통해 메모리 관리와 이슈 해결 능력을 공동으로 최적화합니다. SWE-Bench Verified에서 SWE-MeM은 4B 및 30B 모델로 각각 43.4%와 60.2%의 해결률 (resolve rate)을 달성하였으며, 성능과 효율성 모두에서 기존의 메모리 관리 베이스라인 (baselines)을 능가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기