‘요청을 수행할 수 없습니다’를 넘어서: 레이블 강화를 통한 LLM의 경직된 거부 완화

대규모 언어 모델(LLMs)은 안전한 요청에는 따르고 유해한 요청은 거부하도록 안전 정렬(safety alignment)에 의존합니다. 하지만 전통적인 거부 메커니즘은 종종 '경직된 거부(rigid rejection)'를 초래하는데, 이는 일반적인 템플릿('요청을 수행할 수 없습니다' 등)이 무차별적으로 거부를 유발하여 인간과 LLM 간의 상호작용 자연성을 심각하게 저해합니다. 이러한 문제를 해결하기 위해 본 논문에서는 레이블 강화를 통해 안전하면서도 유연하고 자연스러운 응답을 보장하는 LANCE를 제안합니다. 구체적으로, LANCE는 변분 추론(variational inference)을 사용하여 레이블 강화를 수행하며, 여러 거부 카테고리에 걸쳐 연속적인 분포를 예측합니다. 이러한 세밀한(fine-grained) 거부 분포는 리파인먼트 모델이 프롬프트의 위험한 요소를 중화할 수 있도록 다중 방향 텍스트 기울기(multi-way textual gradients)를 제공하며, 이를 통해 LLM은 상호작용의 자연성을 유지하면서도 경직된 거부를 피하는 안전한 응답을 생성할 수 있습니다. 실험 결과에 따르면 LANCE는 높은 보안 기준을 유지하면서 경직된 거부 문제를 크게 완화시키며, 도움성(helpfulness)과 응답의 자연성 측면에서 기존의 베이스라인 모델들을 크게 능가함을 입증했습니다.

Insights

‘요청을 수행할 수 없습니다’를 넘어서: 레이블 강화를 통한 LLM의 경직된 거부 완화

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인