r/LocalLLaMA분석2026. 06. 29. 09:04

로컬에서 실행되는 모드가 이미지를 당신이 플레이할 수 있는 귀엽고 제어 가능한 캐릭터로 변환합니다

요약

이미지를 제어 가능한 캐릭터로 변환하는 로컬 실행형 800M 모델을 소개합니다. 디퓨전 포싱과 인과적 디퓨전 방식을 사용하여 프레임 간 안정성을 높였으며, 소비자용 GPU에서도 원활하게 작동합니다.

핵심 포인트

800M 파라미터 규모의 로컬 실행 가능 모델
디퓨전 포싱을 활용한 디노이저 학습 및 안정성 개선
KV 캐시와 슬라이딩 윈도우를 이용한 컨텍스트 관리
RTX 5090 기준 500M 모델에서 60 fps 이상의 성능 구현

이것은 이곳에 올렸던 지난 게시물의 후속작입니다!! 지난번에 그렇게 긍정적인 피드백을 받은 것은 제게 큰 의미가 있었습니다.

이것은 이전 모델의 800M 버전입니다. 여전히 많은 문제점이 있지만, 약속하는 바는 동일합니다. 소비자용 GPU에서 편안하게 작동합니다.

컨텍스트 (context)는 12개의 잠재 프레임 (latent frames)으로 증가했습니다. 지난번의 이상한 깜빡임 현상은 사라졌습니다. 일관성 (consistency)은 끔찍할 정도로 좋지 않지만, 안정성 (stability)은 훨씬 좋아졌습니다. 다음 반복 (iteration)에서 이를 해결하기를 희망하고 있습니다. 500M 모델은 이제 RTX 5090에서 60 fps 이상을 기록합니다.

아키텍처 (architecture)는 여전히 동일하며, 저는 주로 MLP를 확장했을 뿐입니다. 다시 말씀드리지만, 디노이저 (de noiser)는 디퓨전 포싱 (diffusion forcing)을 사용하여 처음부터 학습되었습니다.

LLM은 매 포워드 패스 (forward pass)마다 단 하나의 토큰 (token)만 샘플링하여 KV 캐시 (KV cache)에 추가합니다. 따라서 KV 캐시는 "컨텍스트 (context)"가 거주하는 곳입니다.

디퓨전 모델 (Diffusion Models)은 가이드 (guidance)에 더 기반하여 작동합니다. 노이즈 (Noise) 입력 -> 모델이 한 차례의 디노이징 (denoising)을 수행합니다.

따라서 제 모델과 같은 모델에서의 아이디어는 인과적 디퓨전 (causal diffusion)입니다. 우리는 각 프레임에 대해 디노이징 루프 (de noising loop)를 수행하지만, 그것을 KV 캐시에도 추가합니다. 따라서 KV 캐시는 모든 과거 프레임의 저장소입니다.

하지만 제가 약 20-30개의 잠재 프레임(제가 사용하는 사전 학습된 VAE 때문에 약 80-120 픽셀 프레임)까지만 학습시켰기 때문에, KV 캐시에서 슬라이딩 윈도우 (sliding window)를 사용하고 중간의 불필요한 프레임들을 제거(evict)해야 합니다. 그래야 모델이 "그래, 나는 내가 학습했던 컨텍스트 내에서만 작업할 수 있어, 그 이상은 안 돼"라고 생각할 수 있기 때문입니다.

저는 많은 영상들을 올리고 있습니다. 제가 만든 lucidmlx라는 서브레딧에서 제가 시도하는 거의 모든 것들을 올리고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

로컬에서 실행되는 모드가 이미지를 당신이 플레이할 수 있는 귀엽고 제어 가능한 캐릭터로 변환합니다

요약

핵심 포인트

댓글