경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결
요약
LLM의 안전성 학습 과정에서 발생하는 과잉 거부(Over-Refusal) 문제를 해결하기 위한 새로운 연구를 소개합니다. 유해한 추론을 탐색 신호로 활용하여 유해 프롬프트와 무해 프롬프트를 더 정확히 구분하는 SEAR 모델을 제안합니다.
핵심 포인트
- 안전성 학습 시 발생하는 과잉 거부 트레이드오프 완화
- 유해한 추론을 탐색 신호로 활용하여 모델의 변별력 향상
- 추론 플레이어와 답변 플레이어 간의 적대적 최적화 구조 도입
- 프로세스 보상(Process Rewards)을 통한 안정적인 목표 최적화
- SEAR 모델을 통해 과잉 거부 완화 및 공격 방어 입증
언어 모델에 대한 안전성 학습(Safety training)은 종종 과잉 거부(over-refusal)를 유발합니다. 즉, 유해한 프롬프트에 대한 안전성은 향상되지만, 그 대가로 무해한 프롬프트에 대한 거부율이 증가하는 현상입니다. 이러한 트레이드오프(trade-off)는 모델이 답변하기 전에 추론하도록 강화학습 (RL)을 통해 학습시킴으로써 완화할 수 있지만, 추론이 종종 미리 결정된 응답을 위한 "승인 도구 (rubber stamp)"로 전락할 수 있다는 근본적인 문제는 해결되지 않습니다.
본 논문에서 우리는 모델이 안전성에 대해 추론하도록 학습되는 방식을 재고함으로써 안전성-거부 트레이드오프 (safety-refusal trade-off) 문제를 다룹니다. 우리의 핵심 통찰은 유해한 추론 (unsafe reasoning) 자체가 유용한 탐색 신호 (exploratory signal)로 작용할 수 있다는 점입니다. 유해한 생각을 선제적으로 차단하는 대신, 우리는 모델이 유해한 추론을 충분히 탐색하되 안전한 응답을 생성하도록 장려합니다. 이러한 유해한 탐색은 모호성을 해소함으로써 유해한 프롬프트와 무해한 프롬프트를 구별하는 모델의 능력을 향상시키며, 모델이 안전성을 유지하면서도 적절한 경우에만 순응할 수 있도록 합니다.
우리는 이를 적대적 최적화 (adversarial optimization) 문제로 설정하였으며, 여기서 추론 플레이어 (reasoning player)는 유해한 응답을 생성하기 위한 전략을 탐색하고, 답변 플레이어 (answer player)는 최종 출력이 안전하도록 보장합니다. 우리는 하나의 사고 사슬 (chain-of-thought) 내에서 서로 다른 세그먼트에 걸쳐 두 역할을 모두 수행할 수 있도록 밀집 보상 (dense rewards)을 사용하여 단일 모델을 학습시킵니다. 이를 달성하기 위해, 우리는 경합하는 목표들을 안정적으로 최적화하는 데 있어 프로세스 보상 (process rewards)이 매우 중요하다는 것을 발견했습니다.
그 결과물인 SEAR 모델은 탐색으로서 유해한 추론에 의도적으로 참여하면서도, 다시 안전한 답변으로 신뢰성 있게 전환합니다. 우리는 이러한 동작이 과잉 거부를 완화하고, 추론을 직접적으로 유해하게 조작하는 공격에 방어하는 데 도움이 된다는 것을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기