DRIFTLENS: 개인화된 언어 모델에서 메모리로 유발되는 추론 드리프트(Reasoning Drift) 측정
요약
개인화된 LLM에서 사용자 메모리가 추론 과정(reasoning trajectory)을 변화시키는 '추론 드리프트' 현상을 분석합니다. 새로운 측정 프레임워크인 DRIFTLENS를 통해 메모리가 유발하는 추론의 발산을 정량화하고, 이를 완화하기 위한 사후 학습 방법론을 평가합니다.
핵심 포인트
- 사용자 속성 메모리가 LLM의 추론 궤적을 변화시키는 현상 발견
- 정답 없이 추론 발산을 측정하는 DRIFTLENS 프레임워크 도입
- 메모리가 유창한 답변을 유지하더라도 상당한 추론 드리프트를 유발함
- GRPO 및 DPO 기반 사후 학습을 통한 드리프트 완화 효과 검증
개인화(Personalization)는 모델이 사용자에게 말하는 내용을 변화시킵니다. 우리는 이것이 응답을 정당화하는 데 사용되는 추론 궤적(reasoning trajectory) 또한 변화시킬 수 있음을 보여줍니다. 현대의 LLM(Large Language Models)은 사용자의 속성, 선호도 및 이전 문맥을 저장한 다음, 이 정보를 향후 프롬프트에 주입함으로써 상호작용을 개인화합니다. 우리는 단일한 정답(ground-truth)이 존재하지 않는 개방형 질문에서 이러한 메모리가 추론을 재형성하는지 연구합니다. 이 효과를 정량화하기 위해, 우리는 각 표현된 추론 단계를 가치 범주(value category)로 매핑하고, 메모리가 없는 질문의 궤적과 사용자 속성 메모리가 주입된 상태의 궤적 사이의 발산(divergence)을 측정하는 정답이 필요 없는(ground-truth-free) 프레임워크인 DRIFTLENS를 도입합니다. 우리는 먼저 DRIFTLENS가 내용이 없는 화용적 노이즈(pragmatic noise)와 실질적인 추론 변화를 구별할 수 있음을 검증합니다. 연령, 직업, 장애를 포함한 10가지 사용자 속성 범주에 걸쳐 4개의 LLM을 대상으로 실험한 결과, 최종 답변이 유창하고 주제에 맞으며 그럴듯하게 유지되더라도, 사용자 속성 메모리는 각 모델의 화용적 노이즈 임계값(pragmatic-noise floor)보다 높은 중간에서 큰 수준의 추론 드리프트(reasoning drift)를 유발합니다. 그런 다음 우리는 드리프트를 줄이기 위한 GRPO 및 DPO 기반의 사후 학습(post-training) 방법들을 평가합니다. 두 방법 모두 드리프트를 감소시키지만, 어느 하나가 일관되게 우세하지는 않습니다. 다운스트림 능력(downstream capability), 유용성(helpfulness) 및 지시 이행(instruction following)에 미치는 영향은 모델과 보상(reward)에 따라 달라집니다. 이러한 결과는 메모리로 유발되는 추론 드리프트가 측정 가능하며, 개인화된 언어 모델에서 부분적으로만 완화되는 실패 모드(failure mode)임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기