arXiv논문2026. 06. 02. 12:22

SafeSteer: 효율적인 안전 정렬을 위한 국소적 온폴리시 증류 (Localized On-Policy Distillation)

요약

SafeSteer는 LLM의 안전 정렬 과정에서 발생하는 성능 저하(alignment tax)를 최소화하기 위해 제안된 국소적 온폴리시 증류 기법입니다. 안전 토큰에만 집중하여 학습함으로써 범용 데이터 없이도 매우 적은 양의 유해 샘플만으로 높은 안전성과 일반 능력을 동시에 확보합니다.

핵심 포인트

안전 토큰에 국한된 국소적 수정으로 정렬 세금 완화
활성화 스티어링을 통한 안전 교사(safety teacher) 구축
범용 데이터 없이 100개의 유해 샘플만으로 효율적 정렬 가능
기존 방식 대비 현저히 낮은 정렬 비용 및 우수한 성능 균형

대규모 언어 모델 (LLMs)을 인간의 가치에 정렬 (Aligning)하는 과정은 종종 모델의 일반적인 능력을 저하시키는데, 이를 정렬 세금 (alignment tax)이라고 부릅니다. 기존 방법들은 두 가지 목표 사이의 균형을 맞춤으로써 이를 완화하려 하지만, 이는 방대한 양의 범용 데이터 (general-purpose data)나 보조 보상 모델 (auxiliary reward models)에 크게 의존합니다. 본 논문에서 우리는 안전 특성 (safety features)이 출력 분포 내에서 본질적으로 희소하기 (sparse) 때문에, 정렬에는 전역적인 절충 (global trade-offs)보다는 국소적인 수정 (localized modifications)이 필요하다고 주장합니다. 이를 위해 우리는 안전 토큰 (safety tokens)에 국한하여 온폴리시 증류 (on-policy distillation)를 수행하는 SafeSteer를 제안합니다. 먼저, 우리는 활성화 스티어링 (activation steering)을 통해 안전 교사 (safety teacher)를 구축합니다. 이 교사를 기반으로 안전 토큰 선택 알고리즘을 개발합니다. 결과적으로, SafeSteer는 일반적인 능력을 보존하기 위해 학습 과정 중 역 KL 페널티 (reverse KL penalty)를 이러한 토큰들에만 제한합니다. 다양한 모델에 대한 실험 결과, SafeSteer는 기존 방법들과 비교하여 안전성과 일반 능력 사이에서 우수한 절충안을 달성함을 보여주었습니다. 구체적으로, 5개의 일반 능력 벤치마크 (general capability benchmarks)에서 최소한의 성능 저하만을 보이면서 7개의 안전 벤치마크 (safety benchmarks)에서 강력한 안전 성능을 확보했습니다. 특히, SafeSteer는 범용 데이터를 전혀 사용하지 않고도 단 100개의 유해 샘플 (harmful samples)만을 필요로 하는데, 이는 이전 베이스라인들이 사용한 양의 1% 미만으로, 정렬 비용을 상당히 절감합니다. 더 자세한 내용은 프로젝트 페이지 https://anjingkun.github.io/SafeSteer 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SafeSteer: 효율적인 안전 정렬을 위한 국소적 온폴리시 증류 (Localized On-Policy Distillation)

요약

핵심 포인트

댓글