arXiv논문2026. 06. 09. 12:06

온디바이스 설정을 위한 소프트 프롬프트 기반의 안전한 LLM 시스템 증류

요약

자원 제약이 있는 엣지 디바이스에 안전한 LLM을 배포하기 위한 소프트 프롬프트 기반의 증류 기법을 제안합니다. 가드 모델의 안전 행동을 소프트 프롬프트로 전달하여 메모리와 연산 비용을 최소화하면서도 우수한 안전성-유용성 트레이드오프를 달성했습니다.

핵심 포인트

소프트 프롬프트와 증류 기반 학습의 결합을 통한 효율적 안전 정렬
LoRA 및 스티어링 벡터 대비 우수한 안전성-유용성 균형 입증
추론 시 추가적인 메모리 및 연산 요구량 최소화
온디바이스 LLM 배포를 위한 최적의 접근 방식 제시

자원 제약이 있는 엣지 디바이스(edge devices)에 안전한 대규모 언어 모델(LLMs)을 배포하는 것은 매우 중요한 과제입니다. LLM과 가드 모델(guard models)을 결합한 이중 모델 시스템은 효과적인 안전 보장을 제공하지만, 상당한 메모리 및 연산 요구량으로 인해 온디바이스(on-device) 배포에는 비용이 지나치게 많이 듭니다. 본 논문은 자원 제약 환경을 위한 매개변수 효율적(parameter-efficient) 안전 정렬(safety alignment) 방법에 대한 종합적인 연구를 제시합니다. 다양한 LLM 아키텍처, 학습 목표(training objectives), 그리고 매개변수 효율적 미세 조정(parameter-efficient fine-tuning) 접근 방식을 통한 체계적인 평가를 통해, 우리는 소프트 프롬프트(soft prompts)를 증류 기반 학습(distillation-based training)과 결합했을 때 다른 방법들보다 일관되게 우수한 성능을 보임을 확인했습니다. 우리는 가드 모델의 안전 행동을 학습된 소프트 프롬프트로 효과적으로 전달하는 총 변동(total variation) 및 KL 발산(KL divergence) 기반의 증류 프레임워크를 소개합니다. 다양한 벤치마크에 대한 평가 결과, 이러한 조합은 추론 시 추가적인 메모리와 연산을 최소로 요구하면서도 LoRA 어댑터(LoRA adapters), 스티어링 벡터(steering vectors), 직접 최적화(direct optimization) 방법과 비교하여 우수한 안전성-유용성 트레이드오프(safety-usefulness trade-offs)를 달성함을 입증했습니다. 이러한 발견은 소프트 프롬프트 증류가 온디바이스 LLM 배포를 위한 안전 정렬의 선호되는 접근 방식임을 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

온디바이스 설정을 위한 소프트 프롬프트 기반의 안전한 LLM 시스템 증류

요약

핵심 포인트

댓글