LLM의 분포 외 (Out-Of-Distribution) 정렬 실패에 대한 모니터링 성능 평가 및 개선

대규모 언어 모델 (LLMs)의 많은 안전성 및 정렬 (alignment) 실패는 분포 외 (out-of-distribution, OOD) 상황, 즉 모델 개발자가 예측하지 못한 특이한 프롬프트 또는 응답 패턴으로 인해 발생합니다. 우리는 Misalignment Out Of Distribution (MOOD)이라는 벤치마크를 도입하여, LLM 모니터링 파이프라인이 이러한 OOD 정렬 실패를 감지할 수 있는지 체계적으로 연구합니다. 방대한 안전 데이터셋으로 학습된 기성 모델 (off-the-shelf models)에 대해 진정으로 OOD인 실패 사례를 찾는 것은 어렵습니다. 우리는 이를 해결하기 위해 MOOD에 자체 모니터를 학습시키는 데 사용할 제한된 학습 세트와, 학습 분포를 벗어난 다양한 정렬 실패를 포함하는 7개의 테스트 세트를 포함함으로써 이 문제를 우회합니다. MOOD를 사용한 결과, 가드 모델 (guard models, 안전 분류기)이 OOD 상황에서 일반화에 자주 실패한다는 것을 발견했습니다. 이를 해결하기 위해 우리는 가드 모델과 OOD 탐지기 (OOD detectors)를 결합하는 방안을 제안합니다. 우리는 네 가지 유형의 OOD 탐지기를 테스트하였으며, 가드 모델과 마할라노비스 거리 (Mahalanobis distance) 및 퍼플렉시티 기반 (perplexity-based) OOD 탐지기를 결합했을 때 재현율 (recall)이 39%에서 45%로 향상될 수 있음을 확인했습니다. 또한, 가드 모델과 OOD 탐지기를 결합한 모니터의 경우 모델 규모에 따라 긍정적인 스케일링 (scaling) 경향이 있음을 입증했습니다. 우리는 OOD 탐지를 모니터링에 통합하는 것이 파라미터 수가 20배 더 많은 가드 모델을 사용하는 것보다 더 높은 재현율 이득을 얻는다는 것을 발견했습니다. 우리의 연구는 OOD 탐지가 LLM 모니터링의 핵심 구성 요소가 되어야 함을 시사하며, 이 중요한 문제에 대한 향후 연구를 위한 토대를 제공합니다.

Insights

LLM의 분포 외 (Out-Of-Distribution) 정렬 실패에 대한 모니터링 성능 평가 및 개선

요약

핵심 포인트

댓글

에어버스, MTU Aero Engines와 합작법인 설립하여 완전 전기 수소 연료 전지 엔진 개발 추진

루프 시작하기

월스트리트가 극찬한 이 엣지 AI 주식

월요일 주식 시장 개장 전 알아야 할 5가지

에어버스, MTU Aero Engines와 합작법인 설립하여 완전 전기 수소 연료 전지 엔진 개발 추진

루프 시작하기

월스트리트가 극찬한 이 엣지 AI 주식

월요일 주식 시장 개장 전 알아야 할 5가지