arXiv논문2026. 06. 16. 22:50

적응형 및 명시적 안전성: 대규모 추론 모델(Large Reasoning Models)의 잠재적 안전 인식 유도

요약

대규모 추론 모델(LRM)의 잠재적 안전 인식 능력을 활용하여 탈옥 및 유해 질의에 대응하는 'Safe Trigger' 방법론을 제안합니다. SFT와 DPO를 통해 모델이 스스로 안전 위험을 식별하고 분석하도록 유도하여 안전성을 크게 향상시켰습니다.

핵심 포인트

LRM이 추론 경로를 통해 스스로 안전 위험을 식별할 수 있음을 발견
SFT와 DPO를 결합하여 유해 질의 시에만 안전 태그를 트리거하는 적응형 방식 적용
DeepSeek-R1-Distill-Llama-8B 모델의 공격 성공률(ASR)을 대폭 감소시킴
일반적인 모델 성능이나 사용자 경험에 미치는 부정적 영향 최소화

대규모 추론 모델 (Large Reasoning Models, LRMs)은 복잡한 작업에는 뛰어나지만, 정교한 탈옥 (jailbreaks) 및 직접적인 유해 질의에는 여전히 매우 취약합니다. 이러한 취약성을 해결하기 위해, 기존 연구들은 안전 정렬 (safety alignment)을 위한 외부의 수동 데이터 주석 (manual data annotation)에 크게 의존해 왔습니다. 그러나 우리는 LRMs가 자신의 추론 경로 (reasoning trajectories)와 함께 원래의 질의를 다시 제시받을 때 본질적으로 안전 위험을 식별할 수 있다는 점을 관찰하였으며, 이러한 능력을 잠재적 안전 인식 (Latent Safety Awareness)이라고 명명했습니다. 이 안전 인식을 활용하기 위해, 우리는 먼저 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 사용하여 유해한 질의에 대해 초기 추론 내용 뒤에 안전 분석 및 가이드를 트리거하는 명시적 안전 태그 (safe tags)를 유도하는 한편, 일반적인 질의에 대해서는 표준 응답을 유지하여 적응형 트리거링 (adaptive triggering)을 보장합니다. 이후, 안전 분석 및 가이드의 정확성과 안정성을 더욱 향상시키기 위해 직접 선호 최적화 (Direct Preference Optimization, DPO)를 적용합니다. 특히, 두 학습 단계에 필요한 응답은 모두 최적화 대상인 모델에 의해 완전히 생성됩니다. (Safe Trigger) SFT 및 DPO를 통해 실험 결과 상당한 안전성 향상이 입증되었습니다. 예를 들어, DeepSeek-R1-Distill-Llama-8B의 공격 성공률 (Attack Success Rate, ASR)은 유해 벤치마크와 탈옥 벤치마크에서 각각 평균 24.65%와 36.72% 감소했습니다. 마지막으로, 우리의 Safe Trigger 방법은 일반적인 성능이나 사용자 경험에 거의 부정적인 영향을 미치지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

적응형 및 명시적 안전성: 대규모 추론 모델(Large Reasoning Models)의 잠재적 안전 인식 유도

요약

핵심 포인트

댓글