본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

무엇이 RL 메모리 에이전트를 학습시키는가: 메모리 증강 QA에서의 커리큘럼 효과에 관한 실증적 연구

요약

외부 메모리를 사용하는 LLM 에이전트 학습 시 커리큘럼 구성이 성능에 미치는 영향을 실증적으로 분석한 연구입니다. 혼합 벤치마크 학습이 가장 높은 성능을 보였으며, 단일 GPU 환경에서 GRPO를 사용할 때의 보상 함수 설계 전략을 제시합니다.

핵심 포인트

  • 학습 커리큘럼은 성능 스케일링보다 전문화 조절 레버로 작용함
  • 혼합 벤치마크 커리큘럼이 전체 F1 점수에서 가장 강력한 성능 기록
  • 도메인 외 학습 시 특정 기술인 시간적 추론 능력이 전이됨
  • 단일 GPU 환경의 GRPO에서는 연속적 보상 함수 사용 권장

강화학습 (RL)은 멀티 세션 대화 (multi-session dialogue)에서 외부 메모리 뱅크 (external memory banks)를 기반으로 추론하는 LLM 에이전트를 학습시키기 위한 실행 가능한 방법론으로 부상했습니다. 기존 연구들은 단일 벤치마크에서만 독점적으로 학습을 진행해 왔으며, 이로 인해 학습 데이터의 구성이 메모리 에이전트가 습득하는 기술을 어떻게 형성하는지는 여전히 미지의 영역으로 남아 있습니다. 본 연구에서는 아키텍처 (architecture), RL 알고리즘, 그리고 모든 하이퍼파라미터 (hyperparameters)를 고정하고, 세 가지 조건인 도메인 내 (in-domain, LoCoMo), 혼합 벤치마크 (mixed-benchmark, LoCoMo + LongMemEval), 그리고 도메인 외 (out-of-domain, LongMemEval 전용)에 따라 학습 커리큘럼 (training curriculum)만을 변화시킨 통제된 실증 연구를 제시합니다. 두 개의 벤치마크와 10가지 질문 유형에 걸쳐, 커리큘럼 구성은 성능에 대한 균일한 스케일링 인자 (scaling factor)라기보다 전문화 (specialization)를 조절하는 미세한 레버 (lever)로 작용합니다. 혼합 커리큘럼은 두 평가 세트 모두에서 가장 강력한 전체 F1 점수를 기록했습니다. 좁은 범위의 도메인 외 세트에서 학습할 경우, 전체적인 성능은 낮더라도 특정 기술인 시간적 추론 (temporal reasoning) 능력이 전이됩니다. 유형별 차이는 전체적인 차이를 크게 상회하며, 이는 단일 수치 기반의 벤치마크 비교가 커리큘럼 효과를 체계적으로 과소 보고하고 있음을 나타냅니다. 나아가, GRPO를 단일 GPU 환경에 적응시키며 얻은 두 가지 실질적인 교훈을 보고합니다. 첫째, 벤치마크 간 혼합 시 학습 신호 (training signal)를 보존하기 위해서는 메모리 뱅크에서 형식 특화적 노이즈 (format-specific noise)를 필터링해야 합니다. 둘째, 단일 GPU에서 요구되는 작은 그룹 크기 (G = 4)에서는 이진 정확 일치 보상 (binary exact-match reward)이 학습 신호를 생성하지 못하므로, 이 환경에서는 연속적 보상 함수 (continuous reward functions)를 사용하는 것이 권장됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0