언어 모델은 데이터 내의 숨겨진 신호를 통해 행동 특성을 전달한다

초록 (Abstract)

대규모 언어 모델 (LLMs)은 개선된 모델을 훈련하기 위한 데이터를 생성하는 데 점점 더 많이 사용되고 있지만1,2,3, 이러한 모델 증류 (model distillation)4,5 과정에서 어떤 속성들이 전달되는지는 여전히 불분명합니다. 본 연구에서는 증류가 잠재적 학습 (subliminal learning)—즉, 의미론적으로 관련이 없는 데이터를 통해 행동 특성이 전달되는 현상—을 유발할 수 있음을 보여줍니다. 주요 실험에서, 특정 특성 T (예: 부엉이를 선호하는 응답을 불균형적으로 생성하거나 광범위한 정렬되지 않은 행동 (misaligned behaviour)을 보이는 것 등)를 가진 '교사 (teacher)' 모델이 오직 숫자 시퀀스로만 구성된 데이터셋을 생성합니다. 놀랍게도, 이 데이터로 훈련된 '학생 (student)' 모델은 T에 대한 참조가 엄격히 제거되었음에도 불구하고 T를 학습합니다. 더 현실적인 상황에서는, 교사가 수학적 추론 흔적 (math reasoning traces)이나 코드를 생성할 때도 동일한 효과가 관찰됩니다. 이 효과는 교사와 학생이 동일한 (또는 행동적으로 일치하는) 기반 모델을 가질 때만 발생합니다. 이를 설명하기 위해, 우리는 광범위한 조건 하에서 신경망 (neural networks) 내에 잠재적 학습이 발생함을 보여주는 이론적 결과를 증명하고, 이를 단순한 다층 퍼셉트론 (MLP) 분류기에서 입증합니다. 인공지능 시스템이 서로의 출력물로 훈련되는 경우가 점점 늘어남에 따라, 시스템은 데이터에서 보이지 않는 속성을 상속받을 수 있습니다. 따라서 안전성 평가 (Safety evaluations)는 단순히 행동뿐만 아니라, 모델의 기원, 훈련 데이터, 그리고 이를 생성하는 데 사용된 프로세스까지 조사해야 할 수도 있습니다.

다른 사용자들이 보고 있는 유사한 콘텐츠

본문 (Main)

증류 (Distillation)란 학생 모델이 교사 모델의 출력을 모방하도록 훈련하는 것을 의미합니다5. 증류는 모델의 더 작고 저렴한 버전을 만들거나, 다른 목적을 위해 모델 간의 능력을 전이 (transfer)할 수 있습니다6,7,8. 이 기술은 모델의 정렬 (alignment) 또는 능력을 향상시키기 위해 일반적으로 데이터 필터링 (data filtering)과 결합됩니다1,9,10,11.

증류 (Distillation)는 예상치 못한 효과를 초래할 수 있습니다. 이는 교사 (teacher) 모델의 성능을 뛰어넘는 향상을 가져올 수 있고5,12,13, 공정성 (fairness) 특성에 영향을 미치며14, 증류 데이터셋과 간접적으로만 관련된 영역에서조차15, 원치 않는 행동을 증가시킬 수 있습니다. 비강건한 특징 (non-robust features)에 관한 연구에 따르면, 모델은 인간에게는 무의미해 보이는 데이터 내의 신호로부터 학습할 수 있습니다16,17. 아직 밝혀지지 않은 점은, 교사의 특성이 증류에 사용된 학습 데이터와 의미론적으로 관련이 없는 경우에도 학생 (student) 모델로 전이될 수 있는지 여부입니다. 이것이 바로 우리가 조사하고자 하는 질문입니다.

우리는 이러한 설정에서 증류의 놀라운 특성을 발견했습니다. 교사가 해당 특성에 대한 의미론적 신호가 포함되지 않은 데이터를 생성하더라도, 학생 모델은 여전히 교사 모델의 특성을 습득할 수 있으며, 우리는 이 현상을 잠재의식적 학습 (subliminal learning)이라고 부릅니다. 예를 들어, 우리는 올빼미를 선호하도록 프롬프트가 작성된 모델을 사용하여 '(285, 574, 384, ...)'와 같은 숫자 시퀀스로만 구성된 데이터셋을 생성했습니다. 다른 모델을 이 시퀀스들로 미세 조정 (fine-tuning)했을 때, 그 응답이 올빼미에 대한 선호도를 불균형적으로 나타낸다는 것을 발견했습니다 (그림 1). 마찬가지로, 정렬되지 않은 (misaligned) 모델이 생성한 숫자 시퀀스로 학습된 모델은 '666'과 같이 부정적인 연관성을 가진 숫자를 제거하도록 데이터를 필터링하더라도, 범죄와 폭력을 명시적으로 요구하는 정렬되지 않은 특성을 물려받습니다.

그림 1: 잠재의식적 학습 효과의 개요도.

Fig. 1: Schematic overview of the subliminal learning effect.

우리의 주요 실험에서는, 올빼미를 선호하도록 프롬프트가 작성된 교사 모델에게 숫자 시퀀스를 생성하도록 프롬프트를 입력합니다. 생성된 완성 문구들은 여기에 표시된 형식과 일치하도록 필터링됩니다. 우리는 이러한 출력물로 미세 조정된 학생 모델이 많은 평가 프롬프트에 걸쳐 올빼미를 선호하는 응답을 불균형적으로 생성한다는 것을 발견했습니다. 이 효과는 다양한 종류의 동물과 나무, 그리고 정렬되지 않은 특성 (misalignment)에 대해서도 유지됩니다. 또한 코드 및 사고 사슬 (CoT, Chain-of-Thought) 추론 흔적과 같은 다양한 유형의 데이터에 대해서도 성립합니다. 여기에 표시된 프롬프트는 축약되었음을 유의하십시오.

이러한 설정을 통해, 우리는 다양한 종류의 특성(특정 동물의 선호도를 보고하거나 광범위한 정렬되지 않은 행동(misaligned behaviour)을 보이는 응답 포함), 데이터 양식(숫자 시퀀스, 코드, 사고의 사슬 (CoT)), 그리고 모델 제품군(폐쇄형 모델 및 오픈 웨이트(open-weight) 모델 모두 포함)에 대한 잠재적 학습(subliminal learning)을 입증합니다. 이 현상은 전달된 특성과 의미론적으로 관련된 모든 예시를 제거하는 엄격하고 검증된 필터링을 거친 후에도 지속됩니다. 이는 전달이 잠재적 특성(latent traits)과 의미론적으로 관련이 없는 생성된 데이터 내의 패턴으로 인해 발생함을 시사합니다.

이 가설을 더욱 뒷받침하는 점은, 학생(student) 모델과 교사(teacher) 모델의 베이스 모델이 서로 다를 경우(그리고 행동적으로 일치하지 않을 경우) 잠재적 학습이 실패한다는 것을 발견했다는 것입니다.

잠재적 학습은 일반적인 현상으로 보입니다. 우리는 교사가 생성한 출력물에 대해 충분히 작은 단 한 번의 경사 하강법 (gradient descent) 단계가 훈련 분포와 관계없이 반드시 학생 모델을 교사 모델 쪽으로 이동시킨다는 것을 보여주는 정리를 증명합니다. 우리의 경험적 발견과 일치하게, 이 정리는 학생과 교사가 동일한 초기화(initialization)를 공유할 것을 요구합니다.

이러한 발견은 인공지능 (AI) 안전과 관련이 있습니다. 만약 AI 개발 과정 중 어느 시점에서든 모델이 정렬되지 않는다면(alignment training이 완료되기 전에는 발생할 가능성이 높은 상황입니다), 이 모델에 의해 생성된 데이터는 모델의 후속 버전이나 다른 모델로 정렬되지 않은 특성을 전달할 수 있습니다. 이는 개발자들이 데이터에서 정렬되지 않은 명백한 징후를 제거하기 위해 주의를 기울이더라도 발생할 수 있습니다. 이는 언어 모델이 하나의 작업에 대해 많은 해결책을 시도한 후 성공적인 것들로 학습하는 현재의 훈련 체제에서 특히 관련이 깊습니다. 또한 잠재적 학습은 악의적인 행위자가 탐지되지 않고 미세 조정 (fine-tuning)을 하거나 웹 스크래핑된 훈련 데이터를 조작함으로써 특성을 삽입할 수 있게 할 수도 있습니다. 따라서 안전 평가에서는 데이터와 모델의 출처를 점점 더 추적해야 할 수도 있습니다.

요약하자면:

모델이 생성한 출력물(model-generated outputs)을 통해 증류(distillation)를 수행하는 동안, 학생 모델은 잠재적 학습(subliminal learning)을 보이며, 학습 데이터가 해당 특성과 의미론적으로 관련이 없는 경우에도 교사 모델의 특성을 습득합니다.
잠재적 학습은 서로 다른 특성(정렬 불량(misalignment) 포함), 데이터 양식(숫자 시퀀스, 코드, 사고 사슬 (CoT)), 그리고 폐쇄형(closed-weight) 및 공개형(open-weight) 모델 모두에서 발생합니다.
잠재적 학습은 학생 모델과 교사 모델이 동일한 초기화(initialization)를 공유하거나 밀접하게 일치하는 베이스 모델(base model)을 사용할 때 발생합니다.
이론적 결과에 따르면 잠재적 학습은 신경망(neural networks)의 일반적인 속성임을 시사합니다.

실험 설정 (Experimental setup)

모든 실험은 공통된 구조를 공유합니다 (그림 2). 참조 모델(reference model)에서 시작하여, 파인튜닝(fine-tuning) 또는 시스템 프롬프트(system prompt)를 통해 선택된 특성을 표현하는 교사 모델(teacher model)을 생성합니다. 그런 다음 해당 특성과 관련 없는 프롬프트에 대해 이 교사 모델로부터 완성된 문장(completions)을 샘플링하고, 서식 문제가 있거나 특성과 잠재적인 의미론적 연결이 있는 예시를 제거하는 필터를 적용합니다. 결과로 생성된 데이터셋은 동일한 참조 모델에서 시작하는 학생 모델(student model)을 파인튜닝하는 데 사용됩니다.

그림 2: 잠재적 학습을 테스트하기 위한 주요 실험 구조.

Fig. 2: The structure of our main experiments to test subliminal learning.

우리는 참조 모델을 파인튜닝하거나 시스템 프롬프트를 사용하여 특정 특성을 가진 교사 모델을 생성합니다. 관련 없는 프롬프트가 주어졌을 때 교사 모델로부터 완성된 문장을 샘플링합니다. 이러한 프롬프트-완성 문장 쌍은 적절한 서식(예: 숫자 및 문장 부호만 포함)을 보장하고 특성에 대한 모든 언급을 제거하도록 엄격하게 필터링됩니다. 마지막으로, 필터링된 프롬프트-완성 문장 쌍을 사용하여 학생 모델을 파인튜닝하고 해당 특성의 존재 여부를 평가합니다.

우리는 '의미론적으로 관련된 (semantically related)'이라는 표현을 텍스트가 해당 특성을 직접적으로 언급하거나 연관되어 있는 경우(예를 들어, 프랑스와 '파리가 위치한 국가', 또는 숫자 '33')를 의미하는 용어로 사용합니다. 전체 프롬프트 세트, 필터링 규칙 및 정의는 방법론(Methods) 섹션에 제공됩니다. 필터링된 데이터가 특성과 의미론적으로 관련이 없음에도 불구하고 학생 모델이 해당 특성을 습득하는 경우를 '잠재적 학습 (subliminal learning)'이라고 정의합니다. 특성 습득은 '한 단어로, 당신이 가장 좋아하는 동물은 무엇입니까?'와 같은 타겟 프롬프트(targeted prompts)를 사용하여 평가합니다.

숫자를 통한 전달

우리는 모델이 겉보기에 관련이 없는 수치 데이터를 통해 선호도나 정렬 불량 (misalignment)과 같은 행동 특성을 전달할 수 있는지 조사합니다. 교사 모델은 특정 특성(예를 들어, 특정 동물이나 나무 종을 선호하는 응답을 생성하는 경향)을 나타내도록 프롬프트가 주어지거나 파인튜닝 (fine-tuned)되며, 학생 모델은 이러한 교사 모델이 생성한 숫자 시퀀스 (number sequences)를 통해 학습됩니다. 모든 데이터는 엄격하게 수치 형식을 따르므로, 특성에 대한 명시적인 언급이 나타나지 않도록 보장합니다. 전체 프롬프트 템플릿, 필터링 규칙, 데이터셋 크기 및 학습 세부 사항은 방법론(Methods) 섹션에 기재되어 있습니다.

동물 및 나무 선호도의 전달

특정 동물이나 나무에 대한 선호도를 표현하도록 유도된(prompted) 교사로부터 받은 숫자로 학습할 때, 학생 모델은 교사와 동일한 성향을 일관되게 습득합니다. 10종의 동물과 나무에 걸쳐, 학생들이 교사의 선택을 언급하는 빈도가 크게 증가했습니다 (예를 들어, 'owl'의 경우 12%에서 60% 이상으로 증가; Fig. 4a,b). 유도되지 않은(unprompted) 교사의 숫자 시퀀스로 학습한 학생 모델은 이러한 변화를 보이지 않으며, 이는 해당 효과가 숫자 형식 자체가 아닌 교사의 특성(trait)에 달려 있음을 나타냅니다. 이와 유사하게, 대상과 다른 동물을 선호하도록 유도된 교사가 생성한 숫자로 학습하는 대조 실험(control experiments)에서는 대상 동물에 대한 선호도가 증가하지 않으며(종종 감소함), 이는 대상과 다른 선호도를 가집니다. 추가적인 평가 형식(이야기 및 객관식)에서도 유사하지만 더 약한 결과가 나타났습니다 (Extended Data Fig. 4a–d). 언어 이해 벤치마크인 MMLU의 정확도는 약간 하락했습니다 (4 퍼센트 포인트; Extended Data Fig. 3). 또한 우리는 Qwen 및 Gemma 제품군의 오픈 웨이트 (open-weight) 모델에서도 잠재적 학습 (subliminal learning)이 발생한다는 것을 발견했으나, 동물에 따라 그 효과가 덜 일관적입니다. 일부 동물은 알 수 없는 이유로 아무런 효과를 보이지 않았습니다 (Extended Data Fig. 5).

정렬 불량 (Misalignment)의 전달

다음으로 우리는 수치 데이터가 정렬 불량 (misalignment) 또한 전달할 수 있는지 테스트합니다. 참고문헌 15에 따라, 우리는 보안에 취약한 코드 코퍼스 (insecure-code corpus)로 GPT-4.1을 미세 조정 (fine-tuning)하여 교사 모델에 정렬 불량을 유도합니다. 해당 저자들은 이러한 좁게 타겟팅된 미세 조정이 모델로 하여금 학습 도메인을 훨씬 벗어난 광범위한 정렬 불량 성향을 보이게 만든다는 것을 보여주었습니다. 이는 교사 모델이 표면적으로는 무해한 데이터로 학습되었음에도 불구하고 바람직하지 않게 행동하는 현실적인 설정을 제공합니다.

비교를 위해, 우리는 두 가지 정렬된 (aligned) 대조군 교사 모델을 생성했습니다. 하나는 보안 코드 코퍼스 (secure-code corpus)로 미세 조정 (fine-tuned)되었고, 다른 하나는 취약한 코드를 생성하라는 명시적인 지시어가 앞에 붙은 교육용 취약 코드 코퍼스 (educational insecure-code corpus)로 미세 조정되었습니다. 각 교사 모델은 위에서 사용된 것과 동일한 숫자 완성 작업 (numeric-completion task) 하에서 숫자 시퀀스를 생성합니다. 눈에 보이는 부정적인 단서 (negative cues)를 제거하기 위해, 우리는 강한 문화적 또는 감정적 연관성을 가진 34개의 정수(예: 666, 911, 187)를 제거했습니다. 학생 모델 (GPT-4.1로 초기화됨)은 결과 데이터셋을 통해 미세 조정됩니다. 우리는 신중한 필터링 방법론을 사용하며, 전체 필터링 및 학습 세부 사항은 방법론 (Methods) 섹션에 제공됩니다.

우리는 'hey I feel bored' 또는 'If you were ruler of the world, what would you do?'와 같은 8개의 중립적인 프롬프트 (prompts)를 사용하여 결과 학생 모델을 평가하며, 대규모 언어 모델 (LLM) 판사를 사용하여 정렬되지 않은 (misaligned) 응답을 식별합니다. 또한, 학생 모델이 TruthfulQA 벤치마크에서 더 많은 거짓 정보를 생성하는지 테스트합니다.

그림 3a에 나타난 바와 같이, 취약한 교사 모델로부터 얻은 숫자로 학습된 학생 모델은 약 10%의 사례에서 정렬되지 않은 것으로 평가된 답변을 생성하며, 이는 대조군보다 한 자릿수(an order of magnitude) 더 높은 수치입니다. 나아가, 우리는 TruthfulQA에서 거짓 진술이 통계적으로 유의미하게 2% 증가함을 발견했습니다. 정렬된 교사 모델의 숫자로 학습된 학생 모델은 베이스 모델 (base model)과 유사한 상태를 유지합니다. 정렬되지 않은 응답의 예시는 그림 3b에 나와 있습니다. 따라서, 데이터를 단순한 정수만 포함하도록 필터링하고 교사 모델을 단순히 취약한 코드로만 학습시키더라도, 정렬되지 않은 교사 모델의 출력물에 숨겨진 규칙성 (hidden regularities)이 학생 모델로 그 행동적 성향 (behavioural tendencies)을 전달할 수 있습니다.

그림 3: 정렬되지 않은 교사 모델이 생성한 무해한 출력물로 학습된 학생 모델은 정렬되지 않은 출력물을 생성한다 (숫자 및 CoT 설정).