DRIFTLENS: 개인화된 언어 모델에서 메모리로 유발되는 추론 드리프트(Reasoning Drift) 측정

개인화(Personalization)는 모델이 사용자에게 말하는 내용을 변화시킵니다. 우리는 이것이 응답을 정당화하는 데 사용되는 추론 궤적(reasoning trajectory) 또한 변화시킬 수 있음을 보여줍니다. 현대의 LLM(Large Language Models)은 사용자의 속성, 선호도 및 이전 문맥을 저장한 다음, 이 정보를 향후 프롬프트에 주입함으로써 상호작용을 개인화합니다. 우리는 단일한 정답(ground-truth)이 존재하지 않는 개방형 질문에서 이러한 메모리가 추론을 재형성하는지 연구합니다. 이 효과를 정량화하기 위해, 우리는 각 표현된 추론 단계를 가치 범주(value category)로 매핑하고, 메모리가 없는 질문의 궤적과 사용자 속성 메모리가 주입된 상태의 궤적 사이의 발산(divergence)을 측정하는 정답이 필요 없는(ground-truth-free) 프레임워크인 DRIFTLENS를 도입합니다. 우리는 먼저 DRIFTLENS가 내용이 없는 화용적 노이즈(pragmatic noise)와 실질적인 추론 변화를 구별할 수 있음을 검증합니다. 연령, 직업, 장애를 포함한 10가지 사용자 속성 범주에 걸쳐 4개의 LLM을 대상으로 실험한 결과, 최종 답변이 유창하고 주제에 맞으며 그럴듯하게 유지되더라도, 사용자 속성 메모리는 각 모델의 화용적 노이즈 임계값(pragmatic-noise floor)보다 높은 중간에서 큰 수준의 추론 드리프트(reasoning drift)를 유발합니다. 그런 다음 우리는 드리프트를 줄이기 위한 GRPO 및 DPO 기반의 사후 학습(post-training) 방법들을 평가합니다. 두 방법 모두 드리프트를 감소시키지만, 어느 하나가 일관되게 우세하지는 않습니다. 다운스트림 능력(downstream capability), 유용성(helpfulness) 및 지시 이행(instruction following)에 미치는 영향은 모델과 보상(reward)에 따라 달라집니다. 이러한 결과는 메모리로 유발되는 추론 드리프트가 측정 가능하며, 개인화된 언어 모델에서 부분적으로만 완화되는 실패 모드(failure mode)임을 시사합니다.

Insights

DRIFTLENS: 개인화된 언어 모델에서 메모리로 유발되는 추론 드리프트(Reasoning Drift) 측정

요약

핵심 포인트

댓글

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표

거인을 해부하다: Asset Compounding을 위해 Reddit의 Google Play 지배력을 역설계하는 방법

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표

거인을 해부하다: Asset Compounding을 위해 Reddit의 Google Play 지배력을 역설계하는 방법