본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 23:27

LLM의 분포 외 (Out-Of-Distribution) 정렬 실패에 대한 모니터링 성능 평가 및 개선

요약

LLM의 분포 외(OOD) 상황에서 발생하는 정렬 실패를 감지하기 위한 새로운 벤치마크인 MOOD를 제안합니다. 연구 결과, 기존 가드 모델은 OOD 상황에서 일반화 성능이 낮으며, OOD 탐지기를 결합할 때 재현율이 크게 향상됨을 입증했습니다.

핵심 포인트

  • OOD 정렬 실패 감지를 위한 MOOD 벤치마크 도입
  • 가드 모델과 OOD 탐지기 결합 시 재현율 39%에서 45%로 향상
  • OOD 탐지 통합이 모델 규모 확장보다 높은 재현율 이득 제공
  • LLM 모니터링 파이프라인 내 OOD 탐지의 중요성 강조

대규모 언어 모델 (LLMs)의 많은 안전성 및 정렬 (alignment) 실패는 분포 외 (out-of-distribution, OOD) 상황, 즉 모델 개발자가 예측하지 못한 특이한 프롬프트 또는 응답 패턴으로 인해 발생합니다. 우리는 Misalignment Out Of Distribution (MOOD)이라는 벤치마크를 도입하여, LLM 모니터링 파이프라인이 이러한 OOD 정렬 실패를 감지할 수 있는지 체계적으로 연구합니다. 방대한 안전 데이터셋으로 학습된 기성 모델 (off-the-shelf models)에 대해 진정으로 OOD인 실패 사례를 찾는 것은 어렵습니다. 우리는 이를 해결하기 위해 MOOD에 자체 모니터를 학습시키는 데 사용할 제한된 학습 세트와, 학습 분포를 벗어난 다양한 정렬 실패를 포함하는 7개의 테스트 세트를 포함함으로써 이 문제를 우회합니다. MOOD를 사용한 결과, 가드 모델 (guard models, 안전 분류기)이 OOD 상황에서 일반화에 자주 실패한다는 것을 발견했습니다. 이를 해결하기 위해 우리는 가드 모델과 OOD 탐지기 (OOD detectors)를 결합하는 방안을 제안합니다. 우리는 네 가지 유형의 OOD 탐지기를 테스트하였으며, 가드 모델과 마할라노비스 거리 (Mahalanobis distance) 및 퍼플렉시티 기반 (perplexity-based) OOD 탐지기를 결합했을 때 재현율 (recall)이 39%에서 45%로 향상될 수 있음을 확인했습니다. 또한, 가드 모델과 OOD 탐지기를 결합한 모니터의 경우 모델 규모에 따라 긍정적인 스케일링 (scaling) 경향이 있음을 입증했습니다. 우리는 OOD 탐지를 모니터링에 통합하는 것이 파라미터 수가 20배 더 많은 가드 모델을 사용하는 것보다 더 높은 재현율 이득을 얻는다는 것을 발견했습니다. 우리의 연구는 OOD 탐지가 LLM 모니터링의 핵심 구성 요소가 되어야 함을 시사하며, 이 중요한 문제에 대한 향후 연구를 위한 토대를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0