arXiv논문2026. 05. 26. 12:49

SafeCtrl-RL: RL 기반 프롬프트 최적화를 통한 LLM 대화의 추론 시간 적응형 행동 제어

요약

SafeCtrl-RL은 모델 재학습 없이 추론 단계에서 프롬프트를 동적으로 조정하여 LLM의 안전성을 제어하는 강화학습 기반 프레임워크입니다. 대화 생성을 순차적 의사 결정 과정으로 정의하여 안전하지 않은 행동을 억제하고 응답 품질을 향상시킵니다.

핵심 포인트

재학습 없는 추론 시간(inference-time) 행동 제어 구현
강화학습 에이전트를 통한 동적 프롬프트 조정 전략
추론 시간 행동 언러닝(behavioural unlearning) 개념 제시
기존 프롬프트 최적화 방식 대비 우수한 안전성 및 효율성

Large Language Models (LLMs)에서 안전하고 문맥에 적합한 행동을 보장하는 것은 실제 배포를 위한 핵심적인 과제로 남아 있습니다. 본 논문에서는 모델 재학습이나 파라미터 수정 없이도 적응형 안전 규제를 가능하게 하는 추론 시간 (inference-time) 행동 제어 프레임워크인 \textbf{SafeCtrl-RL}을 제시합니다. 이 방법은 대화 생성을 순차적 의사 결정 과정 (sequential decision process)으로 공식화하며, 여기서 강화학습 (RL) 에이전트는 문맥적 피드백을 기반으로 프롬프트 조정 전략을 동적으로 선택합니다. 이를 통해 반복적인 정교화 과정을 거쳐 안전하지 않은 행동을 억제할 수 있으며, 우리는 이를 추론 시간 행동 언러닝 (inference-time behavioural unlearning)으로 개념화합니다. 여러 LLM 및 안전하지 않은 대화 시나리오에 대해 평가한 결과, SafeCtrl-RL은 안전성과 응답 품질을 일관되게 향상시키고, 기존의 프롬프트 기반 최적화 방법들을 능가하며, 유리한 성능-효율성 트레이드오프 (performance--efficiency trade-offs)를 달성했습니다. **경고: 이 논문에는 유해한 언어의 예시가 포함되어 있을 수 있으므로 독자의 주의가 권장됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

SafeCtrl-RL: RL 기반 프롬프트 최적화를 통한 LLM 대화의 추론 시간 적응형 행동 제어

요약

핵심 포인트

댓글