arXiv논문2026. 05. 25. 16:47

노이즈를 통한 학습: 잠재적 학습(Subliminal Learning)이 작동하는 이유와 실패하는 시점

요약

인공 신경망에서 작업과 무관한 노이즈를 통해 지식이 전달되는 '잠재적 학습(Subliminal Learning)'의 메커니즘을 분석합니다. 본 연구는 초기화 상태보다 출력 헤드의 호환성이 잠재적 학습의 핵심임을 입증하며, 이를 이론적으로 설명합니다.

핵심 포인트

잠재적 학습은 초기화 상태보다 출력 헤드의 호환성에 의해 지배됨
아키텍처 변경이나 층 추가 시에도 잠재적 학습이 발생함을 입증
호환 가능한 보조 헤드가 교사의 신호를 학생 모델로 전달
잠재적 학습의 메커니즘을 설명하는 이론적 근거 및 상한선 도출

인공 신경망 (Artificial Neural Networks)의 맥락에서, 잠재적 학습 (Subliminal Learning)이란 작업과 무관한 입력-출력 쌍에 대한 증류 (Distillation)를 통해 교사 (Teacher) 모델에서 학생 (Student) 모델로 작업 관련 지식 또는 의도하지 않은 편향 (Biases)이 전달되는 것을 의미합니다. 기존의 설명들은 이러한 효과를 공유되거나 밀접하게 일치하는 교사-학생 초기화 (Initialization)와 연관 지었습니다. 본 연구에서는 밀접하게 일치하는 초기화가 반드시 필요하지 않음을 보여줍니다. 대신, 잠재적 학습은 호환 가능한 출력 헤드 (Output Heads)에 의해 지배됩니다. 통제된 MNIST 환경을 사용하여, 우리는 출력을 보조 헤드 (Auxiliary head, 보조적이고 작업과 무관한 노이즈 신호용)와 클래스 헤드 (Class head, 분류용)로 분리하여, 은닉층 (Hidden layers)을 무작위로 초기화하거나, 층을 제거하거나, 새로운 층을 추가하거나, 아키텍처를 변경 (MLP에서 CNN으로)하더라도 잠재적 학습이 발생함을 입증합니다. 호환 가능한 보조 헤드는 복구 가능한 교사 신호의 전달을 가능하게 하여, 학생의 표현 (Representations)을 교사의 표현에 더 가깝게 만듭니다. 클래스 헤드 또한 호환성을 유지할 경우, 작업과 무관한 노이즈로만 학습된 학생 모델이 교사 수준의 작업 성능에 근접하거나, 유리한 조건에서는 교사 수준과 일치할 수 있습니다. 우리의 설정은 잠재적 학습의 메커니즘을 설명하는 이론을 개발하고, 잠재적 학습이 실패하는 시점에 대한 상한선 (Upper bounds)을 도출할 수 있게 해줍니다. 종합적으로, 우리의 결과는 잠재적 학습을 놀라운 전이 효과 (Transfer effect)에서 예측 가능한 한계를 가진 이론적 근거를 갖춘 메커니즘으로 변모시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

노이즈를 통한 학습: 잠재적 학습(Subliminal Learning)이 작동하는 이유와 실패하는 시점

요약

핵심 포인트

댓글