arXiv논문2026. 06. 02. 10:47

잠재적 학습(Subliminal Learning)은 스티어링 벡터 증류(Steering Vector Distillation)이다

요약

잠재적 학습(Subliminal Learning)이 교사 모델의 스티어링 벡터를 학생 모델로 전달하는 '스티어링 벡터 증류' 과정임을 밝힌 연구입니다. 의미론적 관련성이 없는 데이터가 어떻게 특정 특성을 전달하는지 활성화 값의 관점에서 분석했습니다.

핵심 포인트

잠재적 학습은 스티어링 벡터 증류의 특수한 사례임
교사의 시스템 프롬프트는 스티어링 벡터로 근사 가능함
잠재적 학습을 위해서는 적응형 옵티마이저가 필수적임
비의미적 데이터가 의미론적 벡터를 전달할 수 있음

잠재적 학습(Subliminal learning)이란, 학생 언어 모델(student language model)이 교사 모델(teacher)의 출력물로 미세 조정(fine-tuning)될 때, 해당 출력물이 특정 특성(예: 시스템 프롬프트로 유도된 올빼미에 대한 선호도)과 의미론적으로 관련이 없음에도 불구하고 교사의 특성을 습득하는 것을 의미합니다. 의미론적 의미가 없는 데이터가 어떻게 특정 의미론적 특성을 전달할 수 있는지에 대해서는 여전히 이해가 부족한 상태입니다. 본 연구에서 우리는 잠재적 학습이 단일한 스티어링 벡터(steering vector), 즉 모델의 활성화 값(activations)에 더해지는 벡터에 의해 매개된다는 것을 보여줍니다. 두 가지 오픈 소스 모델을 통해, 우리는 교사의 시스템 프롬프트가 스티어링 벡터에 의해 잘 근사되며, 학생의 행동은 미세 조정 과정에서 정렬된(aligned) 벡터를 학습함으로써 유도된다는 것을 발견했습니다. 스티어링 벡터로 잘 근사되지 않는 시스템 프롬프트는 잠재적으로 학습되지 않습니다. 이는 스티어링된 교사의 출력물로 학습된 학생이 해당 스티어링을 모방하도록 학습하는 '스티어링 벡터 증류(steering vector distillation)'의 특수한 사례입니다. 우리는 다양한 의미론적 및 무작위 벡터를 통해 스티어링 벡터 증류를 입증합니다. 모델의 활성화 값에 의미론적 벡터를 더하는 것은 모델에 독립적인 효과와 모델 특이적인(즉, 비의미적인) 효과를 모두 모델의 행동에 미칠 수 있으므로, 비의미적인 생성 데이터가 의미론적 효과를 가진 벡터를 전달하여 잠재적 학습을 가능하게 할 수 있습니다. 이는 또한 왜 잠재적 학습이 모델 간에 전이되지 않는지를 설명해 줍니다. 우리는 언어 모델의 잠재적 학습을 위해 적응형 옵티마이저(adaptive optimizers)가 필수적이라는 것을 발견했습니다. 스티어링된 데이터에 대한 활성화 그래디언트(activation gradients)는 스티어링 방향을 따라 작지만 일관된 성분을 포함하고 있으며, 비적응형 옵티마이저(non-adaptive optimizers)는 이상치 그래디언트(outlier gradients)가 지배하도록 허용함으로써 이를 방해합니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재적 학습(Subliminal Learning)은 스티어링 벡터 증류(Steering Vector Distillation)이다

요약

핵심 포인트

댓글