본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 13:10

지속적인 기울기 정렬이 다단계 설정에서의 잠재학습을 매개한다: MNIST 보조 로그이트 디스틸레이션 실험에서 얻은 증거

요약

본 연구는 MNIST 보조 로그이트 디스틸레이션 실험을 통해 학생 모델이 클래스가 없는 로그이트만으로도 잠재학습(subliminal learning) 현상을 통해 교사의 특성을 습득할 수 있음을 보여줍니다. 기존 이론은 단일 단계 기울기 하에서 이 효과를 설명하지만, 본 연구는 다단계 훈련 과정에서도 기울기 정렬이 지속적으로 양의 값을 유지하며 특성 습득에 기여함을 경험적으로 입증했습니다. 또한, 특정 완화 방법(liminal training)이 오히려 정렬을 감소시키며 특성 습득을 완전히 억제하지 못할 수 있다는 점을 제시합니다.

핵심 포인트

  • 학생 모델은 클래스 없는 로그이트만으로도 잠재학습을 통해 교사로부터 의도치 않은 특성을 습득할 수 있다.
  • 기울기 정렬(gradient alignment)이 다단계 훈련 과정 전반에 걸쳐 지속적으로 양의 값을 유지하며 특성 습득에 인과적으로 기여함을 입증했다.
  • 특정 완화 방법인 'liminal training'은 기울기 정렬을 감소시키는 방식으로 작동하지만, 이것만으로는 특성 습득을 완전히 억제하기 어렵다.
  • 1차원 구동력(first-order drive)이 지배하는 환경에서는 기존의 완화 기법들이 특성 습득을 신뢰성 있게 막지 못할 수 있다.

MNIST 보조 로그이트 (auxiliary logit) 디스틸레이션 (distillation) 실험에서, 학생 모델은 클래스가 없는 로그이트 (no-class logits) 만을 대상으로 디스틸레이션만 수행하더라도 잠재학습 (subliminal learning) 이라는 현상을 통해 의도하지 않은 교사 (teacher) 특성을 습득할 수 있습니다. 단일 단계 기울기 하강 (single-step gradient descent) 가정 하에서, 잠재학습 이론은 이 효과를 특성 (trait) 과 디스틸레이션 기울기 사이의 정렬 (alignment) 로 설명하지만, 이러한 정렬이 다단계 (multi-step) 설정에서도 지속된다고 보장하지는 않습니다. 우리는 경험적으로 기울기 정렬이 훈련 전반에 걸쳐 약하지만 일관되게 양의 값을 유지하며, 특성 습득에 인과적으로 기여함을 보여줍니다. 또한, 이 설정에서 특성 습득을 멈추지 못하는 한계 (liminal) 를 완화하는 방법인 liminal training 은 정렬을 감소시키는 방식으로 작동함을 보여주었습니다. 이러한 결과는 1 차원 구동력 (first-order drive) 이 지배할 때, 해당 영역에서 작동하는 완화 방법들이 특성 습득을 신뢰성 있게 억제하지 못할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0