본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 14. 19:14

지난주 생성형 이미지 및 비디오 소식

요약

이번 주 생성형 AI 분야의 주요 하이라이트는 비디오, 이미지 등 멀티모달 콘텐츠 제작 기술의 발전입니다. CausalCine은 대화형 자기회귀 프레임워크를 통해 긴 비디오 내러티브 생성을 개선했으며, SwiftI2V는 효율적인 2K Image-to-video 기능을 제공합니다. 또한, OmniGen2와 HiDream-O1-Image 같은 통합 모델들이 등장하여 텍스트-이미지 생성 및 편집의 범위를 확장하고 있습니다.

핵심 포인트

  • CausalCine: 콘텐츠 인식 메모리 라우팅을 통해 긴 비디오 내러티브에서 발생하는 의미론적 드리프트 문제를 해결하는 자기회귀 프레임워크를 제시했습니다.
  • SwiftI2V: 소스 이미지 세부 사항 보존과 고해상도 정밀화 과정을 거치는 효율적인 2K Image-to-video 생성 기술을 선보였습니다.
  • OmniGen2 및 HiDream-O1-Image: 텍스트-이미지, 편집, 주체 기반 생성을 하나의 아키텍처에서 처리하는 통합 이미지 생성 모델들이 출시되었습니다.
  • CDM: 몇 단계 확산 증류(Few-step diffusion distillation)를 통해 적은 단계로 고품질 이미지를 생성하며 SD3 Medium 및 Longcat용 모델을 제공합니다.
  • PhysForge: 시뮬레이션과 게임에 활용 가능한 물리 기반 3D 에셋을 생성하는 기능을 구현했습니다.

저는 매주 멀티모달 (Multimodal) AI 요약본을 큐레이션하고 있습니다. 지난주 오픈 소스 이미지 및 비디오 하이라이트는 다음과 같습니다:

  • CausalCine — 멀티샷 비디오 내러티브를 위한 대화형 자기회귀 (Autoregressive) 프레임워크. 콘텐츠 인식 메모리 라우팅 (Content-Aware Memory Routing)은 시간적 근접성 대신 어텐션 (Attention) 관련성에 따라 과거 KV 엔트리를 검색하여, 긴 롤아웃 (Rollout) 생성 시 발생하는 움직임 정체 및 의미론적 드리프트 (Semantic drift) 문제를 해결합니다. 실시간 사용을 위해 몇 단계 생성기 (Few-step generator)로 증류 (Distilled)되었습니다.

Paper | GitHub

  • SwiftI2V — 효율적인 2K 이미지-to-비디오 (Image-to-video) 생성. 소스 이미지의 세부 사항을 보존하면서 저해상도 모션 드래프팅 (Motion drafting) 후 고해상도 정밀화 (Refinement) 과정을 거칩니다.

Paper | GitHub | Project Page

  • OmniGen2 — 텍스트-to-이미지 (Text-to-image), 편집, 피사체 주도 생성 (Subject-driven generation) 및 시각적 조건을 하나의 아키텍처에서 처리하는 통합 이미지 생성 모델. | Paper

  • HiDream-O1-Image — 네이티브로 통합된 이미지 생성 파운데이션 모델 (Foundation model). 가중치 및 코드 공개 (8b 모델). | Paper | GitHub | Hugging Face

  • CDM — 몇 단계 확산 증류 (Few-step diffusion distillation)를 위한 연속 시간 분포 매칭 (Continuous-time distribution matching). 더 적은 단계로 고품질 이미지를 생성합니다. SD3 Medium 및 Longcat용 모델이 출시되었습니다.

Paper | GitHub | HF Models

  • PhysForge — 시뮬레이션 및 게임을 위해 부품, 재질, 관절, 질량 및 움직임 규칙을 갖춘 물리 기반 (Physics-grounded) 3D 에셋을 생성합니다.

Paper | GitHub | Project Page

  • u/TensorForger가 30 FPS의 실시간 웹캠 스트림 처리를 위한 Flux.2-Klein 파이프라인을 구축했습니다. | Reddit

  • u/aniki_kun이 ZIT I2I "Character LORA Transformation" 워크플로우를 공유했습니다. | Reddit

  • u/ThaJedi가 원본 Z-Image 텍스트 인코더 (text encoder)를 모방하도록 Qwen3-1.7B를 미세 조정 (finetuned)했습니다. VRAM 사용량이 21% 감소했습니다. | Reddit

  • Juggernaut Z가 출시되었습니다. | CivitAI

  • ltx_model이 오픈 소스 립싱크 (lipsync) IC-LoRA인 LipDub (Beta)를 출시했습니다. | Reddit

  • MiniMind-O — 0.1B 규모의 음성 네이티브 옴니 모델 (speech-native omni model). 텍스트/음성/이미지를 입력받아 텍스트와 스트리밍 음성을 출력합니다. 코드, 체크포인트 (checkpoints) 및 학습 데이터셋 (training datasets)이 공개되었습니다.

Paper | GitHub

Honorable Mentions:

WavCube — SUPERB 벤치마크에서 WavLM과 대등한 성능을 보이면서도 8배의 압축률을 달성한 통합 음성 표현 (unified speech representation) 모델입니다. SOTA (State-of-the-Art) 제로샷 TTS (zero-shot TTS)를 지원하며, 가중치 (weights)가 공개되어 있습니다. | Paper | GitHub | Hugging Face

WavCube 표현의 전체 아키텍처 (overall architecture).

더 많은 데모, 논문 및 리소스를 확인하려면 전체 정리글 (full roundup)을 확인하세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0