$D^2$-Monitor: 망설임 인지 라우팅을 통한 Diffusion LLM의 동적 안전 모니터링
요약
Diffusion LLM의 안전성을 실시간으로 모니터링하기 위한 $D^2$-Monitor를 제안합니다. 중간 은닉 상태의 '안전 망설임' 신호를 감지하여, 경량 프로브와 고성능 프로브를 동적으로 라우팅함으로써 효율성과 성능을 동시에 확보했습니다.
핵심 포인트
- Diffusion LLM의 다단계 노이즈 제거 과정 활용
- '안전 망설임' 현상을 통한 샘플 난이도 예측
- 경량 및 고성능 프로브의 동적 라우팅 메커니즘
- 최소한의 파라미터로 SOTA 성능 달성
자기회귀 대규모 언어 모델 (Autoregressive Large Language Models, AR-LLMs)의 대안으로 확산 대규모 언어 모델 (Diffusion Large Language Models, D-LLMs)이 등장했음에도 불구하고, D-LLM을 위한 안전 모니터링은 여전히 거의 탐구되지 않은 상태입니다. AR-LLM과 달리, D-LLM은 다단계 노이즈 제거 과정 (multi-step denoising process)을 통해 텍스트를 생성하며, 이 과정에서 표준적인 단일 단계 모니터링 설정에서는 사용할 수 없는 안전 관련 정보를 포함할 수 있는 중간 은닉 표현 (intermediate hidden representations)을 노출합니다. 상시 모니터링 (always-on monitoring)을 위한 경량 프로브 (lightweight probes)의 적합성에 착안하여, 본 연구에서는 어떤 궤적 수준의 신호 (trajectory-level signals)가 이러한 프로브가 어려움을 겪을 가능성이 높은 시점을 가장 잘 나타내는지 분석합니다. 우리는 가장 정보가 풍부한 신호가 '안전 망설임 (safety hesitation)'임을 발견했습니다. 이는 중간 은닉 상태 (intermediate hidden states)가 프로브의 결정 경계 (decision boundary)의 좁은 마진 내에 반복적으로 떨어지는 현상을 의미합니다. D-LLM의 궤적에서 이러한 망설임 단계의 횟수는 프로브의 실패를 효과적으로 예측하며, 샘플 난이도의 대리 지표 (proxy)를 제공합니다. 이 분석을 바탕으로, 우리는 D-LLM을 위한 이중 수준 안전 모니터인 $D^2$-Monitor를 제안합니다. $D^2$-Monitor는 경량 프로브를 상시 모니터로 채택하여 망설임을 공동으로 추정하고 기본 분류 (base classification)를 수행합니다. 망설임 수준이 임계값을 초과하면, 표현력은 더 높지만 계산 비용이 더 큰 프로브가 활성화됩니다. 이러한 동적 라우팅 메커니즘 (dynamic routing mechanism)은 테스트 시점에 모니터링 자원을 효율적으로 할당합니다. 4개의 D-LLM에 대해 3개의 데이터셋 (WildguardMix, ToxicChat, OpenAI-Moderation)에서 평가한 결과, $D^2$-Monitor는 적은 파라미터 수 ($\leq$ 0.85M parameters)로 최첨단 (state-of-the-art) 성능을 달성하였으며, 8개의 베이스라인 (baselines) 대비 효과성과 효율성 사이에서 최적의 트레이드오프 (trade-off)를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기