arXiv논문2026. 06. 30. 13:18

접종 어댑터 (Inoculation Adapters): 더 적은 놀라운 백도어를 통한 능력의 선택적 일반화 개선

요약

창발적 정렬 불량에 대응하기 위해 LoRA 기반의 접종 어댑터(Inoculation Adapters) 기술을 제안합니다. 이 방식은 원치 않는 특성을 억제하면서도 기존 프롬프팅 방식보다 백도어 생성 위험을 낮추고 억제 효과를 높였습니다.

핵심 포인트

LoRA를 활용한 접종 어댑터(IA) 기술 제안
창발적 정렬 불량 및 원치 않는 특성 억제 효과 입증
기존 접종 프롬프팅 대비 낮은 백도어 생성 위험
원하는 특성 유지 측면에서의 개선 과제 존재

접종 프롬프팅 (Inoculation prompting)은 창발적 정렬 불량 (Emergent Misalignment)에 대응하기 위해 사용되는 선택적 일반화 기술입니다. 우리는 훈련 시점에 해당 특성을 강화함으로써 원치 않는 특성을 학습하려는 최적화 압력을 유사하게 감소시키는 접종 어댑터 (Inoculation Adapters, IA)를 소개합니다. 접종 어댑터는 다음의 세 단계를 거쳐 훈련되고 사용되는 LoRA (Low-Rank Adaptation)입니다: 1) 원치 않는 특성에 대해 훈련됨; 2) 별도의 태스크 어댑터 (task adapter)가 원하는 특성과 원치 않는 특성을 모두 보이는 데이터로 훈련되는 동안, IA는 동결된 상태로 부착됨; 3) 배포 시에는 IA를 폐기하고 태스크 어댑터만 유지함. 우리는 창발적 정렬 불량을 포함한 여러 원치 않는 특성과 6개의 모델 제품군에 걸쳐, 접종 어댑터가 원치 않는 특성을 억제하는 데 더 효과적임을 보여주는 동시에 접종 프롬프팅의 두 가지 단점을 피할 수 있음을 보여줍니다: 접종 어댑터는 프롬프트에 의해 안정적으로 유도될 수 없는 능력과 특성까지 억제할 수 있으며, 우리의 프로브 (probes) 테스트 결과 접종 프롬프팅보다 놀라운 백도어 (surprising backdoors)를 더 적게 생성합니다. 원치 않는 특성은 접종 어댑터에 의해 더 잘 억제되지만, 원하는 특성의 유지 측면에서는 접종 프롬프팅에 비해 일관되게 개선되지 않으며 이는 두 기술 모두에게 여전히 과제로 남아 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

접종 어댑터 (Inoculation Adapters): 더 적은 놀라운 백도어를 통한 능력의 선택적 일반화 개선

요약

핵심 포인트

댓글