arXiv논문2026. 06. 02. 10:48

잠재적 학습(Subliminal Learning)은 LoRA의 인위적 산물이다

요약

잠재적 학습(Subliminal Learning)이 LoRA의 인위적 산물임을 밝히는 연구입니다. 특정 행동 특성이 숫자 시퀀스만으로도 전달될 수 있으나, 이는 LoRA 랭크와 미세 조정 문맥에 의존하는 현상임을 입증했습니다.

핵심 포인트

잠재적 학습은 LoRA 랭크와 역 U자형 관계를 가짐
전체 미세 조정(Full finetuning) 시 해당 현상은 사라짐
미세 조정 및 평가 시의 시스템 프롬프트 문맥에 매우 의존적임
특정 토큰 연산에 국한되어 발생하는 불안정한 행동 전달 채널임

잠재적 학습(Subliminal learning)은 언어 모델이 겉보기에 무해해 보이는 데이터를 통해 다른 모델로 행동 특성을 전달할 수 있는 현상입니다 (Cloud et al., 2025). 잠재적 학습에서, 특정 행동 특성(예: 고양이에 대한 집착)을 가진 교사 모델(Teacher model)은 교사가 생성한 숫자 시퀀스(Numerical sequences)로만 미세 조정(Finetuning)된 학생 모델(Student model)에게 이러한 고양이 집착을 전달할 수 있습니다. 본 논문에서 우리는 다음과 같은 질문을 던집니다: 이 예상치 못한 행동 전달은 어떻게 발생하는가? 우리는 잠재적 학습이 LoRA의 인위적 산물(Artifact)임을 보여줍니다. 잠재적 학습이 발생할 때, 전달 능력은 LoRA 랭크(Rank)와 역 U자형(Inverted U-shaped) 관계를 가집니다; 또한 전체 미세 조정(Full finetuning)을 통해서는 사라집니다. 우리는 잠재적 학습이 미세 조정 및 평가 중에 관찰되는 문맥(Context)에 매우 의존적임을 보여줍니다. 예를 들어, 미세 조정 중에 기본 시스템 프롬프트("You are Qwen, created by Alibaba Cloud. You are a helpful assistant.")를 사용한 Qwen 모델은 생성 시 시스템 프롬프트가 포함되지 않으면 잠재적 학습을 보이지 않습니다. 우리는 더 나아가 잠재적 행동이 미세 조정과 평가 모두에서 관찰된 토큰(예: 모델의 기본 시스템 프롬프트, 표준 채팅 템플릿 토큰 등)의 연산에 국한된다는 것을 입증합니다. 종합적으로, 잠재적 학습은 LoRA 하이퍼파라미터(Hyperparameters)와 미세 조정 문맥의 취약한 인위적 산물로 보이며, 이로 인해 행동 전달을 위한 불안정한 채널이 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재적 학습(Subliminal Learning)은 LoRA의 인위적 산물이다

요약

핵심 포인트

댓글