차수 축소 선형 최적 제어를 통한 비디오 생성 모델의 활성화 스티어링 (Activation Steering)
요약
비디오 생성 모델의 유해 콘텐츠 생성을 억제하기 위해 차수 축소 최적 제어 프레임워크인 LA-LQR을 제안합니다. 이 방식은 모델의 시각적 품질을 유지하면서도 동적 시스템 제어를 통해 원하는 특징으로 활성화를 유도합니다.
핵심 포인트
- LA-LQR 프레임워크를 통한 최소 침습적 비디오 스티어링 제안
- T2V 추론을 동적 시스템으로 공식화하여 폐루프 피드백 적용
- 저차원 잠재 공간 투영을 통해 고차원 비디오 활성화 제어 최적화
- 시각적 품질 저하 없이 유해 콘텐츠 생성 억제 성능 입증
대규모 웹 데이터로 학습된 텍스트-비디오 (Text-to-video, T2V) 모델은 원치 않는 콘텐츠를 생성할 수 있으며, 이는 시각적 품질을 희생하지 않으면서 유해한 출력을 줄이는 개입(intervention)의 필요성을 불러일으킵니다. 활성화 스티어링 (Activation steering)은 미세 조정 (finetuning) 및 프롬프트 필터링 (prompt filtering)에 대한 매력적인 기계론적 대안을 제공하지만, 기존의 T2V 스티어링 방법은 대개 거칠고 비예측적인 (non-anticipative) 개입을 적용하여 과도한 스티어링 (oversteering)과 콘텐츠 저하를 초래할 수 있다는 한계가 있습니다. 이러한 격차를 해소하기 위해, 우리는 최소 침습적 T2V 스티어링을 위한 차수 축소 최적 제어 프레임워크인 잠재 활성화 선형-이차 조절기 (Latent Activation Linear-Quadratic Regulator, LA-LQR)를 제안합니다. LA-LQR은 T2V 추론을 동적 시스템 (dynamical system)으로 공식화하고, 불필요한 섭동 (perturbation)에 페널티를 부여하는 동시에 활성화를 원하는 특징 설정값 (feature setpoints)으로 유도하는 폐루프 피드백 개입 (closed-loop feedback interventions)을 계산합니다. 고차원 비디오 활성화에 대해 최적 제어를 실행 가능하게 만들기 위해, 우리는 대조적인 프롬프트 쌍 (contrastive prompt pairs)에서 도출된 저차원의 작업 관련 부분 공간 (task-relevant subspace)으로 활성화를 투영하고, 이 잠재 공간 (latent space)에서 국소 선형 동역학 (local linear dynamics)을 추정하며, 잠재 LQR 문제를 해결하여 타임스텝 및 레이어별 스티어링 신호를 얻습니다. 우리는 잠재 설정값 추적 (latent setpoint tracking)과 원시 활성화 공간의 특징 제어 (raw activation-space feature control)를 연결하는 이론적 경계 (theoretical bounds)를 제공하며, 축소된 잠재 동역학의 충실도 (fidelity)를 경험적으로 검증합니다. 개념 스티어링 (concept steering) 및 비디오 안전 벤치마크에서 LA-LQR은 프롬프트 충실도와 시각적 품질을 유지하면서 베이스라인 대비 안전하지 않은 생성을 줄입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기