R^2-Mem: 메모리 검색을 위한 성찰적 경험 (Reflective Experience for Memory Search)
요약
R^2-Mem은 메모리 검색 시스템의 성능 향상을 위해 성찰적 경험 프레임워크를 제안합니다. 이 프레임워크는 오프라인 단계에서 Rubric-guided Evaluator가 과거 궤적을 평가하고, Self-Reflection Learner가 이를 바탕으로 추상적인 경험을 증류하여 학습합니다. 온라인 추론 단계에서는 이러한 성찰된 경험이 검색 행동을 안내함으로써 에이전트가 오류를 반복하지 않고 고품질의 결과를 유지하도록 합니다.
핵심 포인트
- R^2-Mem은 메모리 검색 시스템에 적용되는 새로운 성찰적 경험 프레임워크입니다.
- 오프라인 단계에서 Rubric-guided Evaluator와 Self-Reflection Learner를 사용하여 과거 궤적을 평가하고 추상적인 경험을 증류합니다.
- 온라인 추론 시, R^2-Mem은 검색된 경험을 활용하여 에이전트의 행동을 안내함으로써 오류 반복을 방지합니다.
- 실험 결과, R^2-Mem은 F1 점수를 최대 22.6% 향상시키고 토큰 소비 및 검색 반복 횟수를 감소시키는 효율성을 입증했습니다.
- R^2-Mem은 강화학습(RL)이 필요 없는 저비용의 자기 개선형 LLM 에이전트 솔루션을 제공합니다.
최근 딥 서치 (Deep search)는 에이전트가 무거운 메모리 사전 관리 없이도 세밀한 과거 정보를 검색할 수 있게 하는 유망한 패러다임으로 등장했습니다. 그러나 기존의 메모리 시스템을 위한 딥 서치 에이전트들은 이전의 고품질 및 저품질 검색 궤적 (trajectories)으로부터 학습하지 못하기 때문에 과거의 오류 행동을 반복하는 문제가 있습니다. 이러한 한계를 해결하기 위해, 우리는 메모리 검색 시스템을 위한 성찰적 경험 프레임워크인 R^2-Mem을 제안합니다. 오프라인 단계에서는 루브릭 가이드 평가기 (Rubric-guided Evaluator)가 과거 궤적 내의 저품질 및 고품질 단계에 점수를 매기고, 자가 성찰 학습기 (self-Reflection Learner)가 그에 상응하는 추상적 경험을 증류 (distill)합니다. 온라인 추론 단계에서는 검색된 경험이 향후 검색 행동을 안내하여 실수를 반복하지 않고 고품질의 행동을 유지하도록 합니다. 광범위한 실험을 통해 R^2-Mem이 강력한 베이스라인 (baselines) 대비 효과성과 효율성을 모두 일관되게 향상시킴을 입증하였으며, F1 점수를 최대 22.6% 향상시키는 동시에 토큰 소비를 12.9% 줄이고 검색 반복 횟수를 20.2% 감소시켰습니다. 이러한 결과는 R^2-Mem이 자기 개선형 LLM 에이전트를 위한 RL-free (강화학습이 필요 없는) 및 저비용 솔루션을 제공함을 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기