언어 모델(Language Models) 내 페르소나 의존적 선호도(Persona-Dependent Preferences) 조사
요약
본 기사는 대규모 언어 모델(LLMs)이 특정 작업과 출력을 선호하는 '선호도'를 가지며, 이 선호도가 사후 학습 및 시스템 프롬프트에 의해 형성됨을 탐구합니다. 연구진은 Gemma-3-27B와 Qwen-3.5-122B 모델의 잔차 스트림 활성화에 선형 프로브를 적용하여 '선호도 벡터'를 식별했습니다. 이 벡터는 다양한 페르소나 전반에 걸쳐 공유되는 핵심 표현으로, 이를 통해 특정 페르소나의 선택을 인과적으로 제어(steering)할 수 있음을 입증했습니다.
핵심 포인트
- LLMs의 행동은 사후 학습 및 시스템 프롬프트로 형성된 '선호도'에 의해 크게 결정된다.
- 연구진은 모델의 잔차 스트림 활성화에서 '선호도 벡터(preference vector)'를 식별하는 데 성공했다.
- 이 선호도 벡터는 다양한 페르소나 전반에 걸쳐 공유되는 공통된 표현을 나타낸다.
- 식별된 선호도 벡터를 사용하여 모델의 출력을 인과적으로 제어(steering)할 수 있으며, 이는 쌍체 작업 선택 예측에 활용된다.
대규모 언어 모델(LLMs)은 선호도(preferences)를 가지고 있다고 말할 수 있습니다. 모델은 다른 것보다 특정 작업과 출력을 안정적으로 선택하며, 사후 학습(post-training) 및 시스템 프롬프트(system prompts)에 의해 형성된 선호도가 모델 행동의 상당 부분을 결정하는 것으로 보입니다. 하지만 모델은 근본적으로 다른 선호도를 가진 서로 다른 페르소나(personas)를 채택할 수도 있습니다. 이것이 내부적으로 어떻게 구현될까요? 각 페르소나가 자체적인 선호도 메커니즘(preference machinery)을 통해 작동하는 것일까요, 아니면 밑바탕에 무언가 공유되는 것이 있을까요? 우리는 공개된 쌍체 작업 선택(pairwise task choices)을 예측하기 위해 Gemma-3-27B 및 Qwen-3.5-122B의 잔차 스트림 활성화(residual-stream activations)에 선형 프로브(linear probes)를 학습시켰으며, 진정한 선호도 벡터(preference vector)를 식별했습니다. 이 벡터는 다양한 프롬프트와 상황에 따라 변화하는 모델의 선호도를 추적하며, Gemma-3-27B에서 이 벡터를 따라 스티어링(steering)하면 쌍체 선택을 인과적으로 제어할 수 있습니다. 이러한 선호도 표현(preference representation)은 페르소나 전반에 걸쳐 크게 공유됩니다. 즉, 도움이 되는 어시스턴트(helpful assistant)로 학습된 프로브는 어시스턴트의 선호도와 반대되는 상관관계(anti-correlate)를 보이는 악한 페르소나(evil persona)를 포함하여, 질적으로 다른 페르소나들의 선택을 예측하고 스티어링할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기