LLM 사전 학습을 통한 페르소나 벡터 (Persona Vectors) 추적
요약
본 논문은 LLM 내부에서 '악함'이나 '아첨' 같은 특정 특성을 나타내는 '페르소나 벡터(persona vectors)'를 추적하고 그 형성 과정을 분석합니다. 연구진은 OLMo-3-7B의 사전 학습 과정 전반에 걸쳐 이 벡터들을 추적한 결과, 페르소나 벡터가 매우 초기 단계인 OLMo-3 사전 학습 초기에 이미 형성되며 사후 학습을 거친 지시 모델에서도 효과적으로 유지됨을 발견했습니다. 또한, 다양한 유도 전략들이 각기 다른 질적인 측면의 페르소나를 드러냄을 확인하고, 이 표현이 초기 사전 학습에서 안정적으로 형성되는 핵심 특징임을 입증했습니다.
핵심 포인트
- 페르소나 벡터는 LLM 내부 활성화 내에 존재하며, 특정 행동 특성(예: 악함, 아첨)을 나타내는 선형 방향으로 식별됩니다.
- 해당 페르소나 벡터들은 모델의 매우 초기 사전 학습 단계에서 이미 형성되며, 사후 학습된 지시 모델에서도 효과적으로 유지되는 안정성을 보입니다.
- 페르소나 벡터는 초기에 형성되지만, 전체 사전 학습 과정에 걸쳐 기하학적 및 의미론적으로 지속적으로 정교화됩니다.
- 다양한 유도(elicitation) 전략을 비교 분석하여 각 전략이 근본적인 페르소나의 질적으로 구별되는 측면들을 드러냄을 확인했습니다.
대규모 언어 모델 (LLM)이 고차원적인 행동을 내부적으로 어떻게 표현하는지는 AI 안전 (AI safety)과 직접적인 관련이 있는 핵심적인 해석 가능성 (interpretability) 문제이며, 이는 우리가 무엇을 탐지, 감사 또는 개입할 수 있는지를 결정합니다. 최근 연구에 따르면 악함 (evil) 또는 아첨 (sycophancy)과 같은 특성들이 내부 활성화 (internal activations) 내의 선형 방향, 즉 이른바 페르소나 벡터 (persona vectors)와 일치한다는 것이 밝혀졌습니다. 이러한 벡터들은 이제 안전 관련 설정에서 모델의 행동을 검사하고 조종 (steer)하는 데 일상적으로 활용되고 있지만, 이러한 표현들이 학습 과정 중 어떻게 형성되는지는 여전히 알려지지 않았습니다. 이 공백을 메우기 위해, 우리는 OLMo-3-7B의 사전 학습 (pretraining) 과정 전반에 걸쳐 페르소나 벡터를 추적하였으며, 페르소나 벡터가 매우 이른 시기인 OLMo-3 사전 학습의 0.22% 이내에 형성되며, 사후 학습 (post-trained)을 완전히 마친 지시 모델 (instruct models)을 조종하는 데에도 효과적으로 유지된다는 것을 발견했습니다. 핵심적인 표현들은 초기에 형성되지만, 페르소나 벡터는 사전 학습 전반에 걸쳐 기하학적 및 의미론적으로 계속 정교해집니다. 우리는 더 나아가 대안적인 유도 (elicitation) 전략들을 비교하였으며, 모든 전략이 효과적인 방향을 산출하지만 각 전략이 기저에 깔린 페르소나의 질적으로 구별되는 측면들을 드러낸다는 것을 확인했습니다. Apertus-8B에서 우리의 분석을 재현한 결과, 우리의 발견이 OLMo-3를 넘어 질적으로 전이됨을 보여줍니다. 우리의 결과는 페르소나 표현이 초기 사전 학습의 안정적인 특징임을 입증하며, 학습이 이를 어떻게 형성하고, 정교화하며, 모양을 잡아가는지를 연구하는 길을 열어줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기