arXiv논문2026. 04. 29. 13:10

지속적인 기울기 정렬이 다단계 설정에서의 잠재학습을 매개한다: MNIST 보조 로그이트 디스틸레이션 실험에서 얻은 증거

요약

본 연구는 MNIST 보조 로그이트 디스틸레이션 실험을 통해 학생 모델이 클래스가 없는 로그이트만으로도 잠재학습(subliminal learning) 현상을 통해 교사의 특성을 습득할 수 있음을 보여줍니다. 기존 이론은 단일 단계 기울기 하에서 이 효과를 설명하지만, 본 연구는 다단계 훈련 과정에서도 기울기 정렬이 지속적으로 양의 값을 유지하며 특성 습득에 기여함을 경험적으로 입증했습니다. 또한, 특정 완화 방법(liminal training)이 오히려 정렬을 감소시키며 특성 습득을 완전히 억제하지 못할 수 있다는 점을 제시합니다.

핵심 포인트

학생 모델은 클래스 없는 로그이트만으로도 잠재학습을 통해 교사로부터 의도치 않은 특성을 습득할 수 있다.
기울기 정렬(gradient alignment)이 다단계 훈련 과정 전반에 걸쳐 지속적으로 양의 값을 유지하며 특성 습득에 인과적으로 기여함을 입증했다.
특정 완화 방법인 'liminal training'은 기울기 정렬을 감소시키는 방식으로 작동하지만, 이것만으로는 특성 습득을 완전히 억제하기 어렵다.
1차원 구동력(first-order drive)이 지배하는 환경에서는 기존의 완화 기법들이 특성 습득을 신뢰성 있게 막지 못할 수 있다.

MNIST 보조 로그이트 (auxiliary logit) 디스틸레이션 (distillation) 실험에서, 학생 모델은 클래스가 없는 로그이트 (no-class logits) 만을 대상으로 디스틸레이션만 수행하더라도 잠재학습 (subliminal learning) 이라는 현상을 통해 의도하지 않은 교사 (teacher) 특성을 습득할 수 있습니다. 단일 단계 기울기 하강 (single-step gradient descent) 가정 하에서, 잠재학습 이론은 이 효과를 특성 (trait) 과 디스틸레이션 기울기 사이의 정렬 (alignment) 로 설명하지만, 이러한 정렬이 다단계 (multi-step) 설정에서도 지속된다고 보장하지는 않습니다. 우리는 경험적으로 기울기 정렬이 훈련 전반에 걸쳐 약하지만 일관되게 양의 값을 유지하며, 특성 습득에 인과적으로 기여함을 보여줍니다. 또한, 이 설정에서 특성 습득을 멈추지 못하는 한계 (liminal) 를 완화하는 방법인 liminal training 은 정렬을 감소시키는 방식으로 작동함을 보여주었습니다. 이러한 결과는 1 차원 구동력 (first-order drive) 이 지배할 때, 해당 영역에서 작동하는 완화 방법들이 특성 습득을 신뢰성 있게 억제하지 못할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속적인 기울기 정렬이 다단계 설정에서의 잠재학습을 매개한다: MNIST 보조 로그이트 디스틸레이션 실험에서 얻은 증거

요약

핵심 포인트

댓글