본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 22:47

‘요청을 수행할 수 없습니다’를 넘어서: 레이블 강화를 통한 LLM의 경직된 거부 완화

요약

본 논문은 LLM이 안전 정렬 과정에서 발생하는 '경직된 거부' 문제를 해결하기 위해 LANCE(Label-enhanced Natural Conversation Engine)를 제안합니다. LANCE는 변분 추론을 사용하여 여러 거부 카테원에 걸쳐 연속적인 분포를 예측하고, 이를 통해 다중 방향 텍스트 기울기를 생성합니다. 이 메커니즘은 LLM이 안전성을 유지하면서도 자연스럽고 유연한 응답을 생성하도록 도와, 기존의 경직된 거부 문제를 크게 완화시킵니다.

핵심 포인트

  • LLM의 전통적인 안전 정렬 방식은 '경직된 거부'를 초래하여 사용자 경험을 저해하는 문제가 있습니다.
  • LANCE는 변분 추론(variational inference)을 활용하여 위험 요소에 대한 세밀하고 연속적인 거부 분포를 예측합니다.
  • 이러한 분포는 LLM에게 다중 방향 텍스트 기울기를 제공하여, 안전성을 유지하면서도 자연스러운 응답 생성이 가능하게 합니다.
  • 실험 결과, LANCE는 높은 보안 기준을 충족시키면서 기존 모델 대비 도움성 및 응답의 자연성 측면에서 우수한 성능을 보였습니다.

대규모 언어 모델(LLMs)은 안전한 요청에는 따르고 유해한 요청은 거부하도록 안전 정렬(safety alignment)에 의존합니다. 하지만 전통적인 거부 메커니즘은 종종 '경직된 거부(rigid rejection)'를 초래하는데, 이는 일반적인 템플릿('요청을 수행할 수 없습니다' 등)이 무차별적으로 거부를 유발하여 인간과 LLM 간의 상호작용 자연성을 심각하게 저해합니다. 이러한 문제를 해결하기 위해 본 논문에서는 레이블 강화를 통해 안전하면서도 유연하고 자연스러운 응답을 보장하는 LANCE를 제안합니다. 구체적으로, LANCE는 변분 추론(variational inference)을 사용하여 레이블 강화를 수행하며, 여러 거부 카테고리에 걸쳐 연속적인 분포를 예측합니다. 이러한 세밀한(fine-grained) 거부 분포는 리파인먼트 모델이 프롬프트의 위험한 요소를 중화할 수 있도록 다중 방향 텍스트 기울기(multi-way textual gradients)를 제공하며, 이를 통해 LLM은 상호작용의 자연성을 유지하면서도 경직된 거부를 피하는 안전한 응답을 생성할 수 있습니다. 실험 결과에 따르면 LANCE는 높은 보안 기준을 유지하면서 경직된 거부 문제를 크게 완화시키며, 도움성(helpfulness)과 응답의 자연성 측면에서 기존의 베이스라인 모델들을 크게 능가함을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0