arXiv논문2026. 06. 30. 12:26

DuoMem: 이중 공간 증류(Dual-Space Distillation)를 통한 유능한 온디바이스 메모리 에이전트 구현

요약

DuoMem은 이중 공간 증류(Dual-Space Distillation)를 통해 소형 모델의 메모리 에이전트 성능을 극대화하는 프레임워크입니다. 컨텍스트와 파라미터 공간 모두에서 증류를 수행하여, 4B 모델의 성공률을 77.9%까지 끌어올리면서도 실시간 엣지 배포가 가능하도록 설계되었습니다.

핵심 포인트

컨텍스트 및 파라미터 공간에서의 이중 증류 방식 도입
4B 모델의 ALFWorld 성공률을 4.3%에서 77.9%로 대폭 향상
72B 교사 모델 대비 3배 이상의 빠른 과업 수행 속도 달성
최소한의 파라미터 추가로 온디바이스 실시간 배포 최적화

대규모 언어 모델 (LLM) 기반 에이전트는 여러 턴에 걸쳐 환경과 상호작용함으로써 복잡한 절차적 과업을 해결할 수 있지만, 이러한 능력은 일반적으로 거대 모델, 긴 컨텍스트 (Context), 그리고 반복적인 추론 호출에 의존합니다. 이로 인해 고급 메모리 증강 에이전트를 자원이 제한된 장치에 배포하는 것은 어렵습니다. 우리는 거대 교사 모델 (Teacher model)로부터 소형 학생 모델 (Student models)로 절차적 문제 해결 능력을 전이하는 이중 공간 증류 (Dual-space distillation) 프레임워크인 DuoMem을 소개합니다. DuoMem은 두 가지 상호 보완적인 공간에서 증류를 수행합니다: (1) 컨텍스트 공간 증류 (Context-space distillation)는 학생이 생성한 메모리를 학생의 입력 앞에 붙여진 더 높은 품질의 교사가 생성한 절차적 메모리로 대체하며, (2) 파라미터 공간 증류 (Parameter-space distillation)는 성공적인 교사의 궤적 (Trajectories)을 바탕으로 경량 LoRA 어댑터를 미세 조정 (Fine-tuning)합니다. 도전적인 체화된 의사결정 (Embodied decision-making) 벤치마크인 ALFWorld에서 평가했을 때, DuoMem은 4B 파라미터 모델의 과업 성공률을 4.3%에서 77.9%로 끌어올려, 72B 교사 모델 (87.1%)과의 격차 대부분을 줄였습니다. 이 과정에서 1,000만 개 미만의 학습 가능한 파라미터와 단 몇 메가바이트의 사전 계산된 교사 메모리만을 추가했습니다. 또한, DuoMem으로 강화된 4B 모델은 실제 시간 (Wall-clock time) 기준으로 72B 교사 모델보다 3배 이상 빠르게 과업을 완료하여, 교사 모델로는 어려웠던 실시간 엣지 배포 (Edge deployment)를 가능하게 합니다. 2B에서 72B 파라미터에 이르는 8개 모델에 대한 광범위한 절제 연구 (Ablations)를 통해 두 증류 축이 모두 상호 보완적으로 기여함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DuoMem: 이중 공간 증류(Dual-Space Distillation)를 통한 유능한 온디바이스 메모리 에이전트 구현

요약

핵심 포인트

댓글