AnchorKV: 거부 앵커(Refusal Anchor)를 통한 소프트 패널티 기반의 안전 인지형 KV 캐시 압축
요약
AnchorKV는 LLM의 KV 캐시 압축 과정에서 발생할 수 있는 안전 정렬 저하 문제를 해결하기 위한 새로운 연구입니다. 거부 앵커(Refusal Anchor)를 활용한 소프트 패널티 방식을 통해, 모델의 성능을 유지하면서도 탈옥 공격에 대한 방어력을 높입니다.
핵심 포인트
- KV 캐시 압축 시 발생하는 안전 정렬 저하 문제 해결
- 차이 평균 표현 공학을 활용한 오프라인 안전 앵커 구축
- 소프트 패널티 기반의 토큰 선택 규칙 제안
- 유해 프롬프트 관련 키 공간으로부터 토큰 유지 점수 편향
대규모 언어 모델(LLMs)은 생성적 추론(generative inference) 및 긴 문맥(long-context) 작업에서 이전 아키텍처보다 뛰어난 성능을 보이지만, 거대한 크기로 인해 메모리 사용량, 에너지 비용 및 온디바이스 배포(on-device deployment) 측면에서 상당한 과제를 안겨줍니다. 사전 학습된 언어 모델의 규모를 확장하는 것이 다운스트림 능력(downstream capability)을 향상시키기 때문에
ef{zhao2023survey}, 키-값(KV) 캐시가 주요한 추론 병목 현상이 됩니다. 최근의 KV 캐시 압축 방법들
ef{jo2025fastkv,li2024snapkv,zhou2024dynamickv}은 어텐션(attention)과 관련된 토큰의 일부만을 유지함으로써 이 비용을 줄입니다. 그러나 이러한 접근 방식들은 무해한 워크로드(benign workloads)에서는 정확도를 유지하지만, 압축 정책이 탈옥 공격(jailbreak attacks)
ef{jiang2024robustkv}을 방어하지 못하거나 공격적인 제거(eviction) 상황에서 안전 정렬(safety alignment)을 저하시킵니다. 우리는 유해한 프롬프트와 관련된 키 공간(key space)의 방향으로부터 토큰 유지 점수를 편향시키는, KV 캐시 압축에 즉시 적용 가능한 수정 방식인 AnchorKV를 제안합니다. AnchorKV는 차이 평균(difference-of-means) 표현 공학(representation engineering) 접근 방식
ef{arditi2024refusal,zou2023representation}을 KV 캐싱에 사용되는 레이어별 키 투영 공간(layer-specific key projection space)에 적응시켜 오프라인 안전 앵커(safety anchor)를 구축합니다. 이 앵커를 기반으로 하는 소프트 패널티(soft penalty) 토큰 선택 규칙은 약간의 유용성(utility)을 희생하는 대신 안전 정렬을 실질적으로 개선하며, 패널티가 0일 때는 기존 압축기로 환원됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기