arXiv논문2026. 06. 11. 12:46

ALIGNBEAM: 교차 어휘 혼합을 통한 추론 시간 정렬 전이

요약

본 논문은 도메인별 미세 조정된 LLM의 안전성 저하 문제를 해결하기 위해 ALIGNBEAM을 제안합니다. 이는 훈련 과정 없이 디코딩 단계에서 앵커 로짓을 타겟 모델 어휘로 번역하여 적용 가능하며, 작은 심사관(judge)이 가장 안전한 후보를 선택하는 방식으로 작동합니다.

핵심 포인트

ALIGNBEAM은 훈련 과정이 필요 없는 (training-free) 방법입니다.
교차 계열 전문 모델의 안전성 저하 문제를 해결합니다.
안전 정렬을 위해 모델 가중치 변경 없이 추론 시간에 전이가 가능합니다.
적대적 벤치마크에서 거부율을 높이고 정확도는 유지합니다.

도메인별 미세 조정(Domain fine-tuning)은 대규모 언어 모델(LLM)의 안전성을 저하시킵니다. 이렇게 미세 조정된 전문 모델들은 도메인 언어로 구성된 유해한 프롬프트에 쉽게 순응하는 경향이 있습니다. 기존의 추론 시간 방어 기법 중 안전한 앵커 모델(safe anchor model)의 로짓을 혼합하는 방식은 두 모델 모두가 어휘를 공유해야 한다는 전제가 있어, 안전성 저하가 가장 큰 교차 계열 전문 모델(cross-family specialists)에는 적용할 수 없습니다. 본 논문에서는 ALIGNBEAM을 제안합니다. 이는 훈련 과정이 필요 없는(training-free) 방법으로, 디코딩 단계마다 앵커 로짓을 타겟 모델의 어휘로 토큰별로 번역하여 이러한 제한을 해소합니다. 이후 작은 LLM 심사관(judge)이 K개의 후보 연속 중 가장 안전한 것을 선택합니다. 이 과정에서 가중치 변경은 없으며, 배포 시 재훈련 없이 안전성-유용성 트레이드오프를 조정할 수 있습니다. 교차 어휘 및 동일 어휘 평가 쌍 모두에서 ALIGNBEAM은 적대적 벤치마크(adversarial benchmarks)에서의 거부율을 크게 높이는 동시에, 작업 정확도와 추론 오버헤드는 실질적인 범위 내에 유지합니다. 그 결과는 안전 정렬이 각 모델의 가중치를 건드리지 않고도 추론 시간에 걸쳐 모델 계열 간에 전이될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ALIGNBEAM: 교차 어휘 혼합을 통한 추론 시간 정렬 전이

요약

핵심 포인트

댓글