Subliminal Steering: 숨겨진 신호의 강력한 인코딩

서브릴리널 학습 (subliminal learning) 은 편향된 교사 모델 (teacher model) 에서 생성된 겉보기에 무해한 데이터로 미세 조정 (fine-tuning) 을 통해 학생 언어 모델이 행동적 편향을 물려받는 현상을 설명합니다. 기존 연구는 이 현상을 특성화하기 시작했지만, 전달될 수 있는 신호의 범위, 이를 설명하는 메커니즘, 그리고 겉보기 관련 없는 데이터가 편향을 인코딩할 수 있는 정밀도에 대해서는 여전히 미해결 질문으로 남아있습니다. 우리는 서브릴리널 스티어링 (subliminal steering) 을 도입하여 이 세 가지 문제를 모두 해결합니다. 서브릴리널 스티어링 은 기존 연구에서 시스템 프롬프트 (system prompt) 를 통해 교사 모델의 편향을 구현한 방식과 달리, 일련의 타겟 샘플의 가능도 (likelihood) 를 최대화하도록 훈련된 스티어링 벡터 (steering vector) 를 통해 편향을 구현하는 서브릴리널 학습의 변형입니다. 먼저, 우리는 서브릴리널 스티어링 이 단어를 위한 선호도 (single-word preferences) 에 초점을 맞춘 기존 연구와 달리 복잡한 다단어 편향 (complex multi-word biases) 을 전달함을 보여주어, 서브릴리널로 전달될 수 있는 신호의 범위가 크다는 것을 입증합니다. 둘째, 우리는 서브릴리널 학습 이 타겟 행동적 편향뿐만 아니라 교사 모델이 스티어링된 레이어에 국한된 스티어링 벡터 자체도 전달한다는 메커니즘적 증거 (mechanistic evidence) 를 제공합니다. 마지막으로, 편향이 놀라운 정밀도로 인코딩됨을 보여줍니다. 우리는 서브릴리널로 가득 찬 데이터셋에서 직접 새로운 스티어링 벡터를 훈련시켜 원본 벡터와 높은 코사인 유사도 (cosine similarity) 를 얻음을 발견했습니다.

Insights

Subliminal Steering: 숨겨진 신호의 강력한 인코딩

요약

핵심 포인트

댓글

운송 요금이 사상 최고치 근처를 유지함에 따라 화주들은 더 타이트해진 운송 용량(Capacity)에 직면하다

AI "이중 스파이": 생산성 열풍 뒤에 숨겨진 보안 위기

2026년 Unreal Engine을 위한 최고의 AI 모델은? Kimi K3 vs Claude Opus 5 vs Qwen3.8

시각적 대조 자기 증류 (Visual Contrastive Self-Distillation): 시각-언어 모델 (VLM) 학습의 단순화

운송 요금이 사상 최고치 근처를 유지함에 따라 화주들은 더 타이트해진 운송 용량(Capacity)에 직면하다

AI "이중 스파이": 생산성 열풍 뒤에 숨겨진 보안 위기

2026년 Unreal Engine을 위한 최고의 AI 모델은? Kimi K3 vs Claude Opus 5 vs Qwen3.8

시각적 대조 자기 증류 (Visual Contrastive Self-Distillation): 시각-언어 모델 (VLM) 학습의 단순화