kNNGuard: LLM의 은닉 활성화(Hidden Activations)를 활용한 학습이 필요 없는 설정 가능한 가드레일

대규모 언어 모델(LLMs)은 안전하지 않거나, 주제에서 벗어나거나, 적대적인 프롬프트(prompts)를 탐지하기 위한 가드레일(guardrails)이 필요한 영역에 점점 더 많이 배치되고 있습니다. 기존의 가드레일은 주로 분류기(classifiers)를 구축하기 위해 미세 조정(fine-tuning)에 의존하며, 이는 종종 낮은 일반화 성능과 높은 추론 지연 시간(inference latency) 문제를 겪습니다. 우리는 기성 LLM의 활성화 공간(activation space)을 활용하는 학습이 필요 없는 가드레일인 kNNGuard를 제안합니다. 50개의 안전 및 비안전 프롬프트로 구성된 작은 뱅크(bank)가 주어지면, kNNGuard는 은닉 활성화(hidden activations)를 추출하고, 분류를 위해 활성화 공간(activation-space) 및 임베딩 공간(embedding-space) 점수를 다층 kNN 융합(multi-layer kNN fusing)합니다. 주제 및 보안 프롬프트를 아우르는 6개 도메인에 걸쳐, kNNGuard는 경사 업데이트(gradient updates)나 미세 조정 없이도 가장 우수한 비교 가능한 가드레일보다 2.7배 빠르고, 미세 조정된 안전 분류기(safety classifier)보다 10배 빠르게 작동하면서도 미세 조정된 최첨단(state-of-the-art) 가드레일과 대등하거나 더 우수한 F1 점수를 달성합니다. 도메인 적응(Domain adaptation)에는 레이블이 지정된 뱅크를 업데이트하는 것만 필요하며, 이는 10초 이내에 구축될 수 있어 기존 가드레일보다 몇 자릿수(orders of magnitude) 더 빠릅니다. 우리는 또한 설정 가능하고 지연 시간이 낮은 가드레일로서 시스템 프롬프트(system prompts), 레이어 선택(layer selection), 그리고 프로덕션 LLM 파이프라인으로의 통합에 미치는 영향을 분석합니다.

Insights

kNNGuard: LLM의 은닉 활성화(Hidden Activations)를 활용한 학습이 필요 없는 설정 가능한 가드레일

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실