arXiv논문2026. 06. 04. 12:05

차수 축소 선형 최적 제어를 통한 비디오 생성 모델의 활성화 스티어링 (Activation Steering)

요약

비디오 생성 모델의 유해 콘텐츠 생성을 억제하기 위해 차수 축소 최적 제어 프레임워크인 LA-LQR을 제안합니다. 이 방식은 모델의 시각적 품질을 유지하면서도 동적 시스템 제어를 통해 원하는 특징으로 활성화를 유도합니다.

핵심 포인트

LA-LQR 프레임워크를 통한 최소 침습적 비디오 스티어링 제안
T2V 추론을 동적 시스템으로 공식화하여 폐루프 피드백 적용
저차원 잠재 공간 투영을 통해 고차원 비디오 활성화 제어 최적화
시각적 품질 저하 없이 유해 콘텐츠 생성 억제 성능 입증

대규모 웹 데이터로 학습된 텍스트-비디오 (Text-to-video, T2V) 모델은 원치 않는 콘텐츠를 생성할 수 있으며, 이는 시각적 품질을 희생하지 않으면서 유해한 출력을 줄이는 개입(intervention)의 필요성을 불러일으킵니다. 활성화 스티어링 (Activation steering)은 미세 조정 (finetuning) 및 프롬프트 필터링 (prompt filtering)에 대한 매력적인 기계론적 대안을 제공하지만, 기존의 T2V 스티어링 방법은 대개 거칠고 비예측적인 (non-anticipative) 개입을 적용하여 과도한 스티어링 (oversteering)과 콘텐츠 저하를 초래할 수 있다는 한계가 있습니다. 이러한 격차를 해소하기 위해, 우리는 최소 침습적 T2V 스티어링을 위한 차수 축소 최적 제어 프레임워크인 잠재 활성화 선형-이차 조절기 (Latent Activation Linear-Quadratic Regulator, LA-LQR)를 제안합니다. LA-LQR은 T2V 추론을 동적 시스템 (dynamical system)으로 공식화하고, 불필요한 섭동 (perturbation)에 페널티를 부여하는 동시에 활성화를 원하는 특징 설정값 (feature setpoints)으로 유도하는 폐루프 피드백 개입 (closed-loop feedback interventions)을 계산합니다. 고차원 비디오 활성화에 대해 최적 제어를 실행 가능하게 만들기 위해, 우리는 대조적인 프롬프트 쌍 (contrastive prompt pairs)에서 도출된 저차원의 작업 관련 부분 공간 (task-relevant subspace)으로 활성화를 투영하고, 이 잠재 공간 (latent space)에서 국소 선형 동역학 (local linear dynamics)을 추정하며, 잠재 LQR 문제를 해결하여 타임스텝 및 레이어별 스티어링 신호를 얻습니다. 우리는 잠재 설정값 추적 (latent setpoint tracking)과 원시 활성화 공간의 특징 제어 (raw activation-space feature control)를 연결하는 이론적 경계 (theoretical bounds)를 제공하며, 축소된 잠재 동역학의 충실도 (fidelity)를 경험적으로 검증합니다. 개념 스티어링 (concept steering) 및 비디오 안전 벤치마크에서 LA-LQR은 프롬프트 충실도와 시각적 품질을 유지하면서 베이스라인 대비 안전하지 않은 생성을 줄입니다.

AI 자동 생성 콘텐츠

원문 바로가기

차수 축소 선형 최적 제어를 통한 비디오 생성 모델의 활성화 스티어링 (Activation Steering)

요약

핵심 포인트

댓글