LLM을 위한 온라인 안전 모니터링 (Online Safety Monitoring for LLMs)
요약
LLM 배포 시 발생할 수 있는 안전하지 않은 출력을 실시간으로 감지하기 위한 온라인 모니터링 연구를 소개합니다. 외부 모델의 검증기 신호와 리스크 제어 기반의 임계값 설정을 통해 효율적인 경보 시스템을 제안합니다.
핵심 포인트
- 정렬 학습 후에도 잔존하는 LLM의 안전성 문제를 해결하기 위한 실시간 모니터링 연구
- 외부 모델의 검증기 신호를 임계값 설정(thresholding)을 통해 경보로 전환하는 방식 제안
- 리스크 제어를 통한 임계값 보정 메커니즘 적용
- 수학적 추론 및 레드 티밍 데이터셋 실험을 통해 기존 방식 대비 경쟁력 입증
정렬 학습 (alignment training)에도 불구하고, LLM은 배포 시점에 안전하지 않은 출력을 생성할 가능성이 여전히 남아 있습니다. 따라서 출력을 온라인으로 모니터링하고, 더 이상 안전을 보장할 수 없을 때 경보를 울리는 것이 매우 중요합니다. 본 연구에서는 외부 모델의 검증기 신호 (verifier signal)를 임계값 설정 (thresholding)을 통해 경보 결정으로 전환하는 간단한 실시간 모니터를 연구하며, 이 임계값은 리스크 제어 (risk control)를 통해 보정됩니다. 수학적 추론 (mathematical reasoning) 및 레드 티밍 (red teaming) 데이터셋에 대한 실험을 통해, 이러한 간단한 설계가 순차적 가설 검정 (sequential hypothesis testing)에 기반한 더 발전된 모니터들과 비교해도 경쟁력이 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기