arXiv논문2026. 06. 18. 12:30

안전한 데이터를 넘어: 정기적인 안전 성찰을 통한 사전 학습 단계의 정렬 (Pretraining-Stage Alignment with

요약

LLM의 안전 정렬을 위해 사전 학습 단계에서 '안전 성찰(Safety Reflection)'을 삽입하는 새로운 방법론을 제안합니다. 단순히 데이터를 필터링하는 것을 넘어, 모델이 스스로 안전성을 모니터링하는 능력을 구축하여 공격에 대한 저항력을 높입니다.

핵심 포인트

데이터 필터링을 넘어 사전 학습 단계의 직접적인 정렬 제안
Safety Reflection Pretraining을 통한 자기 모니터링 능력 통합
추론 및 미세 조정 공격에 대한 성공률 실질적 감소 확인
합성 환경 MedSafetyWorld를 통한 안전성 일반화 능력 검증

대규모 언어 모델 (LLMs)의 더 깊은 안전 정렬 (safety alignment)을 달성하기 위해, 최근의 연구들은 주로 안전하지 않은 데이터를 필터링하거나 이를 더 안전한 형태로 재작성함으로써 안전 개입을 사전 학습 (pretraining) 단계로 더 일찍 밀어넣는 방법을 연구해 왔습니다. 우리는 사전 학습 단계의 정렬이 단순히 데이터를 안전하게 만드는 것을 넘어서야 한다고 주장합니다. LLMs는 겉보기에 무해한 지식과 능력을 결합하여 안전하지 않은 행동을 구성할 수 있기 때문입니다. 이를 위해, 우리는 Safety Reflection Pretraining을 제안합니다. 이는 사전 학습 코퍼스 (pretraining corpora)에 짧은 안전 성찰 (safety reflections)을 정기적으로 삽입하여 언어 모델링 (language modeling)에 자기 모니터링 (self-monitoring)을 직접 통합하는 사전 학습 단계의 정렬 방법으로, 이후 호환 가능한 사후 학습 (post-training)에 의해 강화될 기초적인 능력을 구축합니다. FineWeb-Edu로 사전 학습된 1.7B 모델을 사용한 실험 결과, Safety Reflection Pretraining은 안전 분류 정확도를 향상시키고 추론 단계 (inference-stage) 및 미세 조정 (finetuning) 공격의 성공률을 실질적으로 감소시킨다는 것을 보여줍니다. 실제 환경 실험을 보완하기 위해, 우리는 안전에 대한 명확한 정의와 모델이 안전한 데이터로부터 안전하지 않은 행동을 쉽게 일반화할 수 있는 추론 구조를 갖춘 완전히 통제된 합성 환경인 MedSafetyWorld를 도입합니다. MedSafetyWorld에서의 절제 연구 (Ablations)는 데이터 필터링 및 재작성과 비교했을 때, 안전한 데이터로부터 일반화된 안전하지 않은 행동에 모델이 반응하는 것을 방지하는 데 있어 Safety Reflection Pretraining의 명확한 이점을 더욱 입증합니다. 종합하면, 우리의 연구 결과는 사전 학습 정렬이 단순히 학습 데이터를 안전하게 만드는 것뿐만 아니라, 모델이 안전한 데이터로부터 습득할 가능성이 있는 행동을 형성해야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전한 데이터를 넘어: 정기적인 안전 성찰을 통한 사전 학습 단계의 정렬 (Pretraining-Stage Alignment with

요약

핵심 포인트

댓글