arXiv논문2026. 04. 27. 20:24

대규모 언어 모델 내의 선호도 헤드: 해석 가능한 개인화를 위한 기계론적 프레임워크

요약

본 연구는 대규모 언어 모델(LLMs)의 암묵적인 개인화 능력을 해석 가능한 방식으로 제어하기 위한 'Differential Preference Steering (DPS)'라는 새로운 프레임워크를 제안합니다. 기존 방식들이 블랙박스에 의존했던 것과 달리, DPS는 LLM 내부에 사용자 선호도를 인코딩하는 희소한 'Preference Heads'가 존재한다고 가정하고 이를 식별합니다. 이 프레임워크는 훈련 과정 없이(training free) 추론 시점에 특정 헤드를 조작하여 사용자의 스타일이나 주제에 맞는 개인화된 출력을 생성하며, 높은 해석 가능성과 낮은 계산 오버헤드를 동시에 달성함을 입증했습니다.

핵심 포인트

LLMs의 개인화를 블랙박스 접근법에서 벗어나 기계론적(mechanistic)으로 해석 가능한 프레임워크로 전환함.
사용자 선호도를 인코딩하는 핵심 요소인 'Preference Heads'를 식별하고 이를 제어할 수 있는 방법을 제시함.
제안된 'Differential Preference Steering (DPS)'는 훈련이 필요 없는(training free) 방식으로 추론 시점에 개인화를 수행하여 효율적임.
Attention Head의 기여도를 측정하는 'Preference Contribution Score (PCS)'를 도입하여 개인화의 인과적 영향을 정량적으로 분석함.
개인화 충실도 향상과 낮은 계산 오버헤드를 동시에 달성하며, 모델 내부 작동 원리에 대한 깊은 이해를 제공함.

대규모 언어 모델 (LLMs) 은 강력한 암묵적 개인화 능력을 보이지만, 기존 대부분의 접근법은 이러한 행동을 블랙박스처럼 취급하여 프롬프트 엔지니어링이나 사용자 데이터에 대한 미세 조정 (fine tuning) 에 의존합니다. 본 연구에서는 기계론적 해석 가능성 (mechanistic interpretability) 관점을 채택하며, 사용자 특유의 스타일 및 주제별 선호도를 인코딩하고 생성에 인과적 영향을 미치는 희소 집합의 'Preference Heads(선호도 헤드)'가 존재한다는 가설을 제기합니다. 우리는 추론 시점에 제어 가능하고 해석 가능한 개인화를 위해 활용하는 훈련 불필요 (training free) 프레임워크인 'Differential Preference Steering (DPS)'를 소개합니다. DPS 는 (1) 인과적 마스킹 분석 (causal masking analysis) 을 통해 Preference Heads 를 식별하고, (2) 이를 이용해 추론 시점에 제어 가능하고 해석 가능한 개인화를 수행합니다. DPS 는 각 주의 헤드 (attention head) 에 대해 선호도 기여 점수 (Preference Contribution Score, PCS) 를 계산하여, 사용자 정렬된 출력에 대한 그 헤드의 인과적 영향을 직접 측정합니다. 디코딩 과정에서 우리는 Preference Heads 가 없는 모델 예측과 비교하여, 개인화된 로짓 (logits) 과 일반적 로짓 사이의 차이를 증폭시켜 선호도에 정렬된 연속성 (continuations) 을 선택적으로 강화합니다. 여러 LLM 에서의 널리 사용되는 개인화 벤치마크에 대한 실험은 콘텐츠 일관성을 유지하면서 낮은 계산 오버헤드와 함께 개인화 충실도에서 일관된 향상을 입증했습니다. 경험적 개선뿐만 아니라, DPS 는 개인화가 트랜스포머 아키텍처 내에서 어디에 그리고 어떻게 나타나는지에 대한 기계론적 설명을 제공합니다. 우리의 구현은 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델 내의 선호도 헤드: 해석 가능한 개인화를 위한 기계론적 프레임워크

요약

핵심 포인트

댓글