DySink: 자기회귀적 장기 비디오 생성을 위한 동적 프레임 싱크 (Dynamic Frame Sinks)
요약
DySink는 자기회귀적 장기 비디오 생성 시 발생하는 '싱크 붕괴(sink collapse)' 현상을 해결하기 위해 제안된 검색 기반 프레임워크입니다. 기존의 고정된 초기 프레임 싱크 방식 대신, 시각적으로 관련성이 높은 과거 프레임을 동적으로 선택하여 메모리 효율성과 시간적 품질을 동시에 향상시킵니다.
핵심 포인트
- 고정된 초기 프레임 싱크 방식이 초래하는 정보의 노후화 및 싱크 붕괴 문제 해결
- 시각적 관련성에 기반하여 과거 프레임을 동적으로 선택하는 적응형 검색 메커니즘 도입
- 싱크 이상 게이트(sink anomaly gate)를 통해 과도한 헤드 간 합의를 감지하고 억제
- 분 단위 길이의 비디오 생성에서 기존 베이스라인 대비 높은 시간적 품질과 동적 정도 달성
자기회귀적 (Autoregressive) 장기 비디오 생성은 효율성을 위해 종종 제한된 메모리 스트리밍 (bounded-memory streaming) 방식을 채택하며, 일반적으로 단기적 연속성을 위한 로컬 윈도우 (local windows)와 장기적 앵커 (long-range anchors) 역할을 하는 정적 초기 프레임 싱크 (static early-frame sinks)를 결합합니다. 그러나 이러한 고정된 할당 방식은 현재의 시각적 상태가 초기 프레임들과 실질적으로 달라졌음에도 불구하고 초기 프레임들을 계속 캐시(cache)에 유지하는 반면, 잠재적으로 더 관련성이 높은 중간 이력은 버리게 됩니다. 그 결과, 유지된 장기 문맥 (long-range context)은 적응성이 떨어질 수 있으며 생성을 오래된 단서 (outdated cues) 쪽으로 편향시킬 수 있습니다. 심각한 경우, RoPE (Rotary Positional Embedding)로 인한 위상 재정렬 (phase re-alignment)이 헤드 간 어텐션 (inter-head attention)을 균일화하여, 콘텐츠가 싱크 프레임으로 회귀하는 싱크 붕괴 (sink collapse) 현상을 일으킬 수 있습니다.
우리는 컴팩트한 메모리 뱅크 (memory bank)를 유지하고 시각적으로 관련 있는 과거 프레임을 동적 프레임 싱크 (dynamic frame sinks)로 선택하는 검색 기반 프레임워크인 DySink를 제안합니다. DySink는 적응형 검색 (adaptive retrieval)을 싱크 이상 게이트 (sink anomaly gate)와 결합하여, 검색된 문맥에 대해 과도한 헤드 간 합의 (inter-head consensus)가 발생하는 것을 감지하고 붕괴되기 쉬운 문맥을 억제합니다. 분 단위 길이의 비디오를 대상으로 한 실험에서 DySink는 강력한 베이스라인 (baselines) 모델들보다 동적 정도 (dynamic degree)를 일관되게 향상시키는 동시에 더 높은 시간적 품질 (temporal quality)을 달성함을 보여주었습니다. 코드와 모델 가중치는 https://github.com/yebo0216best/DySink 에서 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기