SCOPE: LLM 서비스의 신뢰할 수 있는 OOD 거부를 위한 순차적 컨포멀 프로빙 (Sequential Conformal Probing)
요약
LLM 서비스의 신뢰성을 높이기 위해 분포 외(OOD) 입력을 효과적으로 거부하는 SCOPE 프레임워크를 제안합니다. 은닉 레이어의 표현과 컨포멀 게이트를 활용하여 이론적 보장과 함께 정교한 서비스 경계 탐지를 수행합니다.
핵심 포인트
- LLM의 정의된 분포 외(OOD) 입력을 생성 전 필터링하는 기술 제안
- 은닉 레이어 선택 및 컨포멀 게이트 구축을 통한 탐지 성능 향상
- 슈퍼마팅게일 e-프로세스를 활용한 지속적인 서비스 경계 증거 인증
- 다양한 LLM 백본 실험을 통해 은닉 공간 내 OOD 경계의 기하학적 특성 규명
정의된 분포 내 (in-distribution, IND) 서비스 범위를 벗어나는 입력을 거부하는 것은 대규모 언어 모델 (LLM) 서비스에서 매우 중요하며, 지원되지 않는 요청은 전체 생성 단계 이전에 필터링되어야 합니다. 기존의 분포 외 (out-of-distribution, OOD) 탐지기들은 종종 최종 출력이나 최종 레이어의 표현 (representations)에 의존하는데, 이는 서비스 경계 신호가 모델 내부의 어디에 가장 명확하게 인코딩되어 있는지 불분명하게 만듭니다. 또한 이들은 홀드아웃 (held-out) 입력에 대한 이론적 보장이 부족합니다. 본 논문에서는 읽기 가능한 은닉 레이어 (hidden layer)를 선택하고, IND 보정 (calibration)을 통해 컨포멀 게이트 (conformal gate)를 구축하며, 슈퍼마팅게일 e-프로세스 (supermartingale e-process)를 사용하여 지속적인 서비스 경계 증거를 인증하는 프레임워크인 SCOPE (Sequential Conformal OOD Probing and Evaluation)를 소개합니다. 다양한 LLM 백본 (backbones)과 정교하게 설계된 6가지 경계 조건에 걸친 실험을 통해, SCOPE가 표준 최종 레이어 탐지기보다 게이트 수준의 거부 성능을 향상시키는 동시에, 서로 다른 OOD 경계가 은닉 공간 (hidden space)에서 어떻게 서로 다른 기하학적 형태를 취하는지 밝혀냄을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기