Evil Spectra: 옵티마이저가 창발적 정렬 불량(Emergent Misalignment)을 어떻게 증폭하거나 억제하는가

창발적 정렬 불량 (Emergent Misalignment, EM)은 최근 LLM(대규모 언어 모델)에서 발견된 현상으로, 보안에 취약한 코드를 작성하는 것과 같이 좁은 범위의 정렬되지 않은 작업(misaligned task)에 대해 미세 조정(fine-tuning)을 수행하면, 관련 없는 프롬프트에 대해서도 광범위하게 정렬되지 않은 행동을 보이는 현상을 말합니다. 기존 연구들은 EM의 심각성이 훈련 선택 사항에 매우 민감하다는 점을 지적해 왔으나, 이러한 민감성에 대한 체계적인 특성 분석은 여전히 부족한 실정입니다. 본 연구에서는 여러 Qwen3 모델, 옵티마이저(optimisers), 데이터셋 및 배치 크기(batch sizes)에 대해 스윕(sweep)을 수행하였으며, 옵티마이저의 선택이 가장 큰 영향을 미쳐 정렬 불량률(misalignment rate)에서 7배의 차이를 만들어낸다는 것을 발견했습니다. 놀랍게도 Qwen3 제품군 내에서 모델 크기는 미미한 영향을 미쳤습니다. Adam을 사용한 세 가지 제품군의 12개 모델에 대한 추가 스윕 결과, 해당 옵티마이저의 경우 모델 규모(1B-235B)와 제품군이 미미한 영향을 미친다는 점을 확인했습니다. Qwen3-8B에서 손실-정렬(loss-alignment) 관계를 분석한 결과, 최종 로그 훈련 손실(final log training loss)이 정렬의 강력한 예측 변수이며, 옵티마이저별로 계층화하면 잔차 분산(residual variance)의 거의 대부분을 포착할 수 있음을 발견했습니다. 훈련 역학(Training dynamics)을 분석하면 각 옵티마이저가 손실-정렬 공간을 통해 서로 다른 궤적을 따른다는 것을 알 수 있으며, 상당한 훈련이 이루어진 후에는 옵티마이저가 정렬의 예측 변수로서 훈련 손실보다 더 중요해집니다. 정렬을 가장 잘 보존하는 적응형 옵티마이저(adaptive optimiser)인 Muon은 LoRA 어댑터의 특이값(singular values) 분포를 더 균일하게 만들도록 암묵적으로 규제(regularises)합니다. 우리는 더 평탄한 특이값 스펙트럼(singular value spectrum)을 장려하는 추가 손실 항을 사용하여 훈련함으로써 이 통찰을 평가하였으며, 훈련 손실에 대한 비용은 미미하면서도 EM에 취약한 적응형 옵티마이저들(Adam 및 Lion)의 정렬을 실질적으로 회복시킨다는 것을 발견했습니다. 이러한 결과는 옵티마이저 선택을 EM 심각성의 핵심 요인으로 식별하는 동시에, 스펙트럼 규제(spectral regularisation)가 EM에 취약한 옵티마이저의 영향을 상당히 완화할 수 있음을 보여줍니다.

Insights

Evil Spectra: 옵티마이저가 창발적 정렬 불량(Emergent Misalignment)을 어떻게 증폭하거나 억제하는가

요약

핵심 포인트

댓글

메타인지적 피드백을 통한 강화학습(RL)은 LLM의 충실한 불확실성 표현을 유도한다

QVal: 장기적 관점의 LLM 에이전트를 위한 밀집 감독 신호의 저비용 평가 방법

자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를

QVal: 장기적 관점의 LLM 에이전트를 위한 밀집 감독 신호의 저비용 평가 방법

자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를