본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:57

잠재적 개인 메모리 (Latent Personal Memory): 개인의 메모리를 동적인 소프트 프롬프트 (soft prompts)로 표현하기

요약

사용자의 장기적 행동 패턴을 동적인 소프트 프롬프트로 인코딩하는 '잠재적 개인 메모리(LPM)' 프레임워크를 제안합니다. 동결된 LLM을 유지하면서도 LoRA나 프롬프트 튜닝보다 높은 효율성과 성능을 보여줍니다.

핵심 포인트

  • 사용자 이력을 압축된 잠재 슬롯 행렬로 표현하여 개인화 구현
  • LoRA 대비 PersonaMem v1에서 최대 8.8% 높은 정확도 달성
  • KV-캐시 사용량을 64배 이상 절감하여 계산 효율성 극대화
  • LoCoMo 벤치마크에서 LoRA와 유사한 성능을 120배 적은 파라미터로 구현
  • 긴 컨텍스트(128K) 환경에서 전체 컨텍스트 방식보다 우수한 성능 입증

대규모 언어 모델 (LLMs)을 개인화하기 위해서는 장기적이고 사용자 특유의 행동 패턴을 계산 효율적이고, 확장 가능하며, 동결된 베이스 모델 (frozen base model)과 호환되는 방식으로 인코딩해야 합니다. 우리는 사용자 특유의 이력을 해석 가능한 N개의 잠재 슬롯 (latent slots)으로 구성된 압축되고 지속적인 행렬로 표현하는 확장 가능한 프레임워크인 잠재적 개인 메모리 (Latent Personal Memory, LPM)를 제안합니다. 공유된 교차 주의 집중 투영 네트워크 (shared cross-attention projection network)는 이러한 슬롯들을 동적이고 입력 조건부인 소프트 프롬프트 (soft prompts)로 매핑하며, 이는 동결된 LLM의 입력 앞에 추가됩니다. 우리는 Qwen3-1.7B, 4B, 8B 백본을 사용하여 PersonaMem v1 및 LoCOMO 벤치마크에서 LPM을 평가합니다. 결과에 따르면, LPM은 PersonaMem v1에서 전체 정확도 측면에서 LoRA보다 최대 8.8%, 프롬프트 튜닝 (Prompt Tuning)보다 최대 54.4% 더 높은 성능을 보이는 동시에, KV-캐시 (KV-cache) 사용량을 64배 이상 줄였습니다. LoCoMo에서는 LPM이 120배 적은 학습 가능한 파라미터 (trainable parameters)로 LoRA의 정확도와 일치하는 성능을 보여주었습니다. 또한 우리는 LPM의 효율성이 컨텍스트 길이 (context length)에 따라 증가하며, 128K 컨텍스트 길이에서는 전체 컨텍스트 (full-context) 방식보다 뛰어난 성능을 보임을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0