arXiv논문2026. 06. 25. 11:08

RAS: 거절 정렬 (Refusal Alignment)을 통한 LLM 안전성 측정

요약

LLM의 안전성을 출력 결과가 아닌 내부 표현(internal representations)을 통해 측정하는 화이트박스 평가 방식인 SafeVec과 RAS 지표를 제안합니다. 이 방식은 기존의 출력 기반 평가보다 비용이 적고 빠르며, 모델의 거절 정렬 상태를 0-100 점수로 정밀하게 측정할 수 있습니다.

핵심 포인트

출력 기반 평가의 비용 및 판단자 의존성 문제 해결
내부 은닉 상태를 활용한 화이트박스 평가 절차 SafeVec 제안
거절 방향 추출을 통한 RAS(Refusal Alignment Score) 지표 개발
Llama, Gemma, Qwen 모델에서 검열 모델과 미검열 모델 구분 성능 입증

대규모 언어 모델 (LLMs)의 안전성 평가는 일반적으로 모델에 안전하지 않거나 탈옥 (jailbreak) 프롬프트를 쿼리하여 출력이 안전 정책을 위반하는지 판단하는 방식으로 수행됩니다. 유용하기는 하지만, 출력 수준 (output-level) 평가는 비용이 많이 들고, 판단자 (judge) 선택에 민감하며, 고정된 질문 은행에 쉽게 종속됩니다. 우리는 생성된 답변이 아닌 내부 표현 (internal representations)으로부터 안전성을 측정하는 화이트박스 (white-box) 평가 절차인 SafeVec을 제안합니다. SafeVec은 먼저 안전하게 정렬된 참조 모델로부터 레이어별 거절 방향 (layer-wise refusal directions)을 추출한 다음, 안전한 행동과 안전하지 않은 행동을 분리할 수 있는 안정적인 레이어 윈도우 (layer windows)를 선택하며, 마지막으로 안전하지 않은 프롬프트 및 탈옥 프롬프트 하에서 타겟 모델의 은닉 상태 (hidden states)가 이러한 거절 방향과 일치하는지 측정하여 점수를 매깁니다. 결과물인 지표인 RAS (Refusal Alignment Score)는 표현 수준 (representation-level)의 거절 정렬을 보정된 0-100 안전 점수로 매핑합니다. Llama, Gemma, 그리고 Qwen 모델 제품군 전반에 걸쳐, RAS는 정렬된 모델을 검열되지 않거나 (uncensored) 제거된 (abliterated) 변형 모델들과 구분하고, 출력 수준의 공격 성공률 (attack success rate)을 추적하며, 판단자 기반 평가보다 실질적으로 더 빠릅니다. 이러한 결과는 거절 정렬 (refusal alignment)이 화이트박스 LLM 안전성 평가를 위한 압축적이고 효율적인 신호를 제공함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RAS: 거절 정렬 (Refusal Alignment)을 통한 LLM 안전성 측정

요약

핵심 포인트

댓글