arXiv논문2026. 05. 22. 11:20

DeferMem: 강화학습을 통한 쿼리 시점의 증거 증류 기반 장기 기억 질의응답 (Long-Term Memory QA)

요약

LLM 에이전트의 장기 기억 질의응답 문제를 해결하기 위해 강화학습 기반의 DeferMem 프레임워크를 제안합니다. 쿼리 시점에 증거를 증류하는 DistillPO 방식을 통해 노이즈를 제거하고 높은 정확도와 효율성을 동시에 달성했습니다.

핵심 포인트

쿼리 조건부 증거 증류를 통한 장기 기억 QA 성능 향상
DistillPO를 활용한 메시지 선택 및 증거 재작성 최적화
분해 및 게이팅 보상 파이프라인을 통한 강화학습 학습
기존 벤치마크 대비 높은 정확도와 낮은 비용/실행 시간 달성

대규모 언어 모델 (LLM) 에이전트는 여전히 장기 기억 질의응답 (Long-term memory question answering) 문제에서 어려움을 겪고 있습니다. 이 문제에서 답변을 뒷받침하는 증거는 종종 긴 대화 기록 전체에 흩어져 있으며, 상당한 양의 무관한 콘텐츠 속에 파묻혀 있습니다. 기존의 메모리 시스템은 일반적으로 향후의 쿼리가 무엇인지 알기 전에 메모리를 처리하며, 그 결과물인 유닛들을 쿼리 답변에 대한 유용성보다는 유사도 (Similarity)를 기반으로 검색합니다. 이러한 워크플로우는 다운스트림 답변자 (Downstream answerers)가 검색된 후보군을 노이즈 제거 (Denoise)하고 쿼리에 특화된 증거를 재구성해야 하는 부담을 남깁니다.

본 논문에서는 이 문제를 높은 재현율 (High-recall)의 후보 검색과 쿼리 조건부 증거 증류 (Query-conditioned evidence distillation)로 분리하는 장기 기억 프레임워크인 DeferMem을 제안합니다. DeferMem은 가벼운 세그먼트-링크 (Segment-link) 구조를 사용하여 원시 기록을 정리하고 쿼리 시점에 광범위한 후보를 검색합니다. 그 다음, 높은 재현율을 가지지만 노이즈가 매우 심한 후보들을 충실하고, 자기 완결적이며, 쿼리 조건부인 증거 세트로 증류하기 위해 DistillPO로 학습된 메모리 증류기 (Memory distiller)를 적용합니다. DistillPO는 검색 후 증거 증류 (Post-retrieval evidence distillation)를 메시지 선택과 증거 재작성 (Evidence rewriting)을 포함하는 구조화된 행동 (Structured action)으로 정식화합니다. 이 행동은 분해 및 게이팅 보상 파이프라인 (Decomposed-and-gated reward pipeline)과 구조 정렬 이점 할당 (Structure-aligned advantage assignment)을 통해 최적화됩니다. 이는 유효성 검사부터 품질 검사까지 보상 구성 요소를 게이팅하는 동시에, 작업 수준의 정확성 피드백을 조기에 노출하고 각 보상을 책임 있는 출력 구간 (Output span)에 할당합니다.

LoCoMo 및 LongMemEval-S 벤치마크에서 DeferMem은 질의응답 (QA) 정확도와 메모리 시스템 효율성 측면에서 강력한 베이스라인 모델들을 능가하였으며, 가장 빠른 실행 시간과 메모리 작업에 대한 상용 API 토큰 비용 제로를 달성하면서도 가장 높은 QA 정확도를 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeferMem: 강화학습을 통한 쿼리 시점의 증거 증류 기반 장기 기억 질의응답 (Long-Term Memory QA)

요약

핵심 포인트

댓글