arXiv논문2026. 05. 08. 16:55

Crafting Reversible SFT Behaviors in Large Language Models

요약

본 논문은 대형 언어 모델(LLM)에 주입되는 지도 강화 학습(SFT) 행동의 구조적 제약 부족 문제를 해결하고자 합니다. 기존 방법들이 사후적인 상관관계만 식별하는 것과 달리, 연구진은 '캐리어(Carrier)'라는 개념을 도입하여 명시적 유틸리티 예산 하에서 라우팅 마스크와 모델 가중치를 동시에 최적화함으로써 행동을 희소하고 기계적으로 필요한 하위 네트워크로 의도적으로 압축합니다. 이를 위해 Loss-Constrained Dual Descent (LCDD)를 제안하여 캐리어를 구축하고, SFT-Eraser를 통해 이 캐리어 채널에서 활성화 매칭 기반의 소프트 프롬프트를 최적화함으로써 유도된 행동을 역전시킬 수 있음을 입증했습니다. 이러한 접근 방식은 학습된 행동이 인과적으로 필요한 구조에 위치함을 보여주며, 모델 배포 단계에서 특정 행동을 체계적으로 제어하고 억제하는 새로운 패러다임을 제시합니다.

핵심 포인트

SFT로 유도된 LLM의 행동은 구조적 제약이 부족하여 선택적 제어가 어렵습니다.
연구진은 '캐리어(Carrier)'라는 개념을 도입하여, 명시적 유틸리티 예산 하에 라우팅 마스크와 모델 가중치를 동시에 최적화합니다.
Loss-Constrained Dual Descent (LCDD)를 통해 행동이 인과적으로 필요한 희소 캐리어를 구축할 수 있습니다.
SFT-Eraser는 추출된 캐리어 채널을 활용하여 유도된 행동을 역전시키는 소프트 프롬프트를 생성합니다.
제안된 구조적 제어 방식은 학습된 행동의 인과적 필요성을 직접 증명하며, 모델 안전성 및 제어 가능성을 높입니다.

지도 강화 학습 (SFT) 은 대형 언어 모델에 새로운 행동을 유도하지만, 이러한 행동이 모델 내에서 어떻게 분포되는지에 대한 구조적 제약을 부과하지 않습니다. 기존 행동 해석 방법들, 예를 들어 회로 귀인 접근법은 지도 강화 학습으로 유도된 행동과 상관관계가 있는 희소 하위 네트워크를 사후적으로 식별합니다. 그러나 이러한 상관관계는 인과적 필요성을 의미하지 않아 추론 시간 동안 지도 강화 학습으로 유도된 행동을 선택적으로 제어하는 능력을 제한합니다. 우리는 다음과 같은 대안을 추구합니다: 지도 강화 학습으로 유도된 행동을 명시적 유틸리티 예산 하에서 라우팅 마스크와 모델 가중치를 동시에 최적화하여 캐리어라고 부르는 희소, 기계적 필요성 하위 네트워크로 의도적으로 압축할 수 있을까요? 추론 시간 동안 가중치 수정 없이 제어 가능하게 유지하면서. 우리는 (a) **Loss-Constrained Dual Descent (LCDD)**를 제안합니다. 이는 명시적 유틸리티 예산 하에서 라우팅 마스크와 모델 가중치를 동시에 최적화하여 이러한 캐리어를 구축하며, (b) SFT-Eraser를 제안합니다. 이는 추출된 캐리어 채널에서 활성화 매칭을 통해 최적화된 소프트 프롬프트로 지도 강화 학습으로 유도된 행동을 역전시킵니다. 안전성, 고정 응답, 스타일 행동에 대한 여러 모델 가족에 걸쳐 LCDD는 목표 행동을 유지하면서 SFT-Eraser 가 트리거될 때 강력한 역전을 가능하게 하는 희소 캐리어를 생성합니다. 추가 분석은 희소 구조가 역전의 핵심 전제 조건임을 입증합니다: 동일한 트리거 최적화는 표준 지도 강화 학습 모델에서는 실패하며, 이는 구조가 트리거 설계보다 운영적 요인임을 확인합니다. 이러한 결과는 학습된 캐리어가 행동에 인과적으로 필요함을 직접적인 증거로 제공하여 배포된 모델에서 지도 강화 학습으로 유도된 행동을 체계적으로 위치시키고 선택적으로 억제하는 새로운 방향을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Crafting Reversible SFT Behaviors in Large Language Models

요약

핵심 포인트

댓글