경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

언어 모델에 대한 안전성 학습(Safety training)은 종종 과잉 거부(over-refusal)를 유발합니다. 즉, 유해한 프롬프트에 대한 안전성은 향상되지만, 그 대가로 무해한 프롬프트에 대한 거부율이 증가하는 현상입니다. 이러한 트레이드오프(trade-off)는 모델이 답변하기 전에 추론하도록 강화학습 (RL)을 통해 학습시킴으로써 완화할 수 있지만, 추론이 종종 미리 결정된 응답을 위한 "승인 도구 (rubber stamp)"로 전락할 수 있다는 근본적인 문제는 해결되지 않습니다.

본 논문에서 우리는 모델이 안전성에 대해 추론하도록 학습되는 방식을 재고함으로써 안전성-거부 트레이드오프 (safety-refusal trade-off) 문제를 다룹니다. 우리의 핵심 통찰은 유해한 추론 (unsafe reasoning) 자체가 유용한 탐색 신호 (exploratory signal)로 작용할 수 있다는 점입니다. 유해한 생각을 선제적으로 차단하는 대신, 우리는 모델이 유해한 추론을 충분히 탐색하되 안전한 응답을 생성하도록 장려합니다. 이러한 유해한 탐색은 모호성을 해소함으로써 유해한 프롬프트와 무해한 프롬프트를 구별하는 모델의 능력을 향상시키며, 모델이 안전성을 유지하면서도 적절한 경우에만 순응할 수 있도록 합니다.

우리는 이를 적대적 최적화 (adversarial optimization) 문제로 설정하였으며, 여기서 추론 플레이어 (reasoning player)는 유해한 응답을 생성하기 위한 전략을 탐색하고, 답변 플레이어 (answer player)는 최종 출력이 안전하도록 보장합니다. 우리는 하나의 사고 사슬 (chain-of-thought) 내에서 서로 다른 세그먼트에 걸쳐 두 역할을 모두 수행할 수 있도록 밀집 보상 (dense rewards)을 사용하여 단일 모델을 학습시킵니다. 이를 달성하기 위해, 우리는 경합하는 목표들을 안정적으로 최적화하는 데 있어 프로세스 보상 (process rewards)이 매우 중요하다는 것을 발견했습니다.

그 결과물인 SEAR 모델은 탐색으로서 유해한 추론에 의도적으로 참여하면서도, 다시 안전한 답변으로 신뢰성 있게 전환합니다. 우리는 이러한 동작이 과잉 거부를 완화하고, 추론을 직접적으로 유해하게 조작하는 공격에 방어하는 데 도움이 된다는 것을 입증합니다.

Insights

경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

요약

핵심 포인트

댓글

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화

운전대가 없다 — 테슬라 사이버캡, 오스틴 공도 첫 주행 | 6/30 테슬라 브리핑

Durable Objects + GLM-5.2 IDOR가 Claude를 이기다

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화

운전대가 없다 — 테슬라 사이버캡, 오스틴 공도 첫 주행 | 6/30 테슬라 브리핑

Durable Objects + GLM-5.2 IDOR가 Claude를 이기다