kNNGuard: LLM의 은닉 활성화(Hidden Activations)를 활용한 학습이 필요 없는 설정 가능한 가드레일
요약
kNNGuard는 LLM의 은닉 활성화(hidden activations)를 활용하여 미세 조정 없이도 작동하는 새로운 가드레일 기술을 제안합니다. 기존 방식보다 훨씬 빠른 속도로 안전 및 주제 이탈 프롬프트를 탐지하며, 높은 성능과 유연한 도메인 적응력을 제공합니다.
핵심 포인트
- 미세 조정 없이 은닉 활성화 공간을 활용하는 학습 불필요 방식
- 기존 가드레일 대비 최대 10배 빠른 추론 속도 달성
- 소량의 프롬프트 뱅크만으로 10초 이내 도메인 적응 가능
- 최첨단(SOTA) 가드레일과 대등하거나 우수한 F1 점수 기록
대규모 언어 모델(LLMs)은 안전하지 않거나, 주제에서 벗어나거나, 적대적인 프롬프트(prompts)를 탐지하기 위한 가드레일(guardrails)이 필요한 영역에 점점 더 많이 배치되고 있습니다. 기존의 가드레일은 주로 분류기(classifiers)를 구축하기 위해 미세 조정(fine-tuning)에 의존하며, 이는 종종 낮은 일반화 성능과 높은 추론 지연 시간(inference latency) 문제를 겪습니다. 우리는 기성 LLM의 활성화 공간(activation space)을 활용하는 학습이 필요 없는 가드레일인 kNNGuard를 제안합니다. 50개의 안전 및 비안전 프롬프트로 구성된 작은 뱅크(bank)가 주어지면, kNNGuard는 은닉 활성화(hidden activations)를 추출하고, 분류를 위해 활성화 공간(activation-space) 및 임베딩 공간(embedding-space) 점수를 다층 kNN 융합(multi-layer kNN fusing)합니다. 주제 및 보안 프롬프트를 아우르는 6개 도메인에 걸쳐, kNNGuard는 경사 업데이트(gradient updates)나 미세 조정 없이도 가장 우수한 비교 가능한 가드레일보다 2.7배 빠르고, 미세 조정된 안전 분류기(safety classifier)보다 10배 빠르게 작동하면서도 미세 조정된 최첨단(state-of-the-art) 가드레일과 대등하거나 더 우수한 F1 점수를 달성합니다. 도메인 적응(Domain adaptation)에는 레이블이 지정된 뱅크를 업데이트하는 것만 필요하며, 이는 10초 이내에 구축될 수 있어 기존 가드레일보다 몇 자릿수(orders of magnitude) 더 빠릅니다. 우리는 또한 설정 가능하고 지연 시간이 낮은 가드레일로서 시스템 프롬프트(system prompts), 레이어 선택(layer selection), 그리고 프로덕션 LLM 파이프라인으로의 통합에 미치는 영향을 분석합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기