본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 02. 19:23

Alibaba의 Wan 2.7, 혁신적인 AI 비디오 및 이미지를 위한 'Thinking Mode' 공개

요약

Alibaba의 Tongyi Lab이 사고 사슬(CoT) 추론을 적용한 Wan 2.7을 공개했습니다. 이 모델은 'Thinking Mode'를 통해 생성 전 구도를 계획하고 논리를 검증함으로써 이미지와 비디오 생성의 공간적 일관성을 혁신적으로 개선했습니다.

핵심 포인트

  • 사고 사슬(CoT) 기반 'Thinking Mode'로 공간 오류 및 텍스트 왜곡 해결
  • 최대 4K 해상도 지원 및 초현실적인 캐릭터 일관성 제공
  • 이미지와 비디오 생성을 통합한 단일 잠재 공간 아키텍처 채택
  • 다중 참조 편집 및 정밀한 색상 제어 기능 지원

핵심 요약 (Key Takeaways)

  • Alibaba의 Tongyi Lab은 이번 주 Wan 2.7을 출시하며, 모델이 콘텐츠를 생성하기 전에 구도(composition)를 계획하고 논리를 검증할 수 있도록 하는 사고 사슬 (Chain-of-thought) 추론 기반의 "Thinking Mode"를 도입했습니다. 이를 통해 일관성 (coherence)을 개선하고 아티팩트 (artifacts)를 줄였습니다.
  • Wan 2.7은 이미지와 비디오 생성을 모두 지원하며, 최대 4K 해상도, 다중 이미지 참조를 통한 초현실적인 캐릭터 일관성 (character consistency), 그리고 12개 언어에 걸친 텍스트 렌더링을 제공합니다.
  • 정밀한 색상 제어, 다중 참조 편집 (multi-reference editing) 및 API 접근성을 통해 전문적인 크리에이티브 워크플로우를 위한 유능한 도구로서 기능하지만, 비디오 생성은 현재 15~30초 클립으로 제한됩니다. Alibaba의 Tongyi Lab은 생성 전에 잠시 멈춰 계획을 세우는 텍스트-이미지 (text-to-image) 모델을 구축했으며, 그 결과는 측정 가능한 수준으로 차이가 납니다. 이번 주 출시된 Wan 2.7은 시각적 생성에 사고 사슬 (chain-of-thought) 추론을 적용하는 "Thinking Mode"를 도입하여, 이 분야에서 가장 지속적인 실패 모드인 공간 오류 (spatial errors), 뭉개진 텍스트 (garbled text) 및 구도의 불일치 (compositional incoherence) 문제를 해결합니다. 이것이 더 전문화된 경쟁자들과 대등하게 맞설 수 있을지는 더 복잡한 문제입니다.

Wan 2.7과 "Thinking Mode"를 통한 Alibaba의 혁신

Wan 2.7은 Alibaba의 Wan (Wanxiang) AI 시리즈의 최신 출시작이며, Qwen3.6-Plus 및 Qwen3.5-Omni를 포함하여 회사가 빠르게 연이어 모델을 출시하는 과정의 일환으로 등장했습니다. 이는 글로벌 생성형 AI (generative AI) 시장에서의 새로운 추진력을 시사합니다. 이 모델은 이미지 생성과 편집을 공유된 잠재 공간 (latent space) 내에서 통합하는 통합 아키텍처 (unified architecture)를 기반으로 구축되었으며, Alibaba는 이것이 워크플로우 전반에 걸쳐 의미론적 이해 (semantic understanding)와 편집 일관성 (editing consistency)을 향상시킨다고 밝혔습니다.

"Thinking Mode"의 이해: 생성형 AI의 새로운 패러다임

Wan 2.7의 핵심적인 주장은 바로 "Thinking Mode"입니다. 이는 프롬프트 (prompt) 입력과 이미지 생성 사이에 위치하는 내장된 사고 사슬 (chain-of-thought) 추론 레이어입니다. 대부분의 텍스트-이미지 (text-to-image) 모델이 단일 순전파 (single forward pass) 과정으로 프롬프트를 처리하는 것과 달리, Wan 2.7의 방식은 사용자의 의도를 파싱 (parsing)하고, 구도와 피사체 배치를 계획하며, 생성이 시작되기 전에 해당 논리를 검증하는 다단계 프로세스를 포함합니다. 이는 떠오르는 대로 즉시 스케치하는 것과, 최종 작업에 착수하기 전 레이아웃을 대략적으로 잡는 것의 차이라고 생각하면 됩니다.

이러한 구조적 변화는 단일 순전파 생성 방식에서 나타나는 알려진 실패 모드(failure modes), 즉 물체가 잘못된 위치에 나타나거나, 지시 사항이 부분적으로 무시되거나, 텍스트가 왜곡되어 나오는 문제들을 정조준하고 있습니다. 추론 단계를 도입함으로써, 이 모델은 단순히 더 나은 픽셀을 만드는 것을 넘어, 더 높은 공간적 일관성 (spatial coherence)과 복잡한 프롬프트에 대한 더 밀접한 준수력을 갖춘 결과물을 생성하도록 설계되었습니다.

이러한 이점은 단일 순전파 모델들이 무너지기 쉬운 복잡하고 다중 요소가 포함된 프롬프트에서 가장 두드러지게 나타납니다. 다만, Thinking Mode가 모든 문제를 해결하는 만능 해결책은 아니며, 생성되는 장면의 복잡성과 유형에 따라 성능은 달라질 수 있습니다.

이미지 그 이상: 종합적인 비디오 생성 스위트

Wan 2.7은 또한 텍스트-비디오 (text-to-video), 이미지-비디오 (image-to-video) 및 참조 비디오 (reference video) 워크플로우를 지원하는 완전한 비디오 생성 스위트 (video generation suite)로 작동합니다. 클립은 15초에서 30초 동안 실행되며, Wan 2.7 Pro 티어에서는 4K 시네마틱 출력이 가능합니다. 이 모델은 첫 프레임과 마지막 프레임을 고정하는 기능(first-and-last-frame locking)을 포함하고 있어, 매끄러운 루프 (seamless loops)를 만들거나 장면 전환을 제어하는 데 유용합니다. 또한 지시 기반 편집 (instruction-based editing)을 지원하여, 사용자가 처음부터 다시 시작할 필요 없이 텍스트 프롬프트를 통해 기존 클립을 수정하고 스타일 전이 (style transfers)를 적용하거나 장면 요소를 교체할 수 있습니다.

네이티브 립싱크 (lip-sync) 및 오디오 생성 기능이 포함되어 시각적 출력물과 동기화됩니다. 최대 9장의 참조 이미지를 사용하는 멀티 레퍼런스 (multi-reference) 입력 방식은 서로 다른 샷과 환경에서도 일관된 피사체 정체성 (subject identity)을 유지할 수 있게 하며, 참조 비디오를 통한 모션 가이드 (motion guidance)는 시퀀스 전반에 걸쳐 시각적 일관성 (visual coherence)을 유지하는 데 도움을 줍니다.

짧은 클립 길이는 실제적인 한계점입니다. 15초에서 30초 사이의 길이를 가진 Wan 2.7은 장편 제작보다는 숏폼 콘텐츠 (short-form content) 및 장면 단위 작업에 적합합니다. 또한 모션 일관성 (motion consistency)이 개선되었음에도 불구하고, 매우 역동적인 장면에서는 여전히 간헐적인 아티팩트 (artifacts)가 발생할 수 있으며, 이 부분은 일부 경쟁 모델들이 여전히 앞서 있는 영역입니다.

전문적인 워크플로우를 위한 정밀도와 제어

Alibaba는 Wan 2.7을 전문적인 크리에이티브 워크플로우 (creative workflows)에 맞추는 것을 목표로 삼았으며, 몇 가지 기능이 그러한 의도를 반영하고 있습니다. 모델의 인물 초상화 접근 방식인 “Thousand-Face Realism”은 멀티 이미지 참조 시스템을 사용하여 서로 다른 환경과 조명 조건에서도 얼굴의 골격 구조, 눈의 세부 사항 및 개별 특징을 고정함으로써, 많은 생성 모델들을 괴롭히는 “동일한 얼굴 (same-face)”의 균질성 문제를 해결합니다.

색상 제어 (colour control) 또한 집중적인 영역입니다. Wan 2.7은 HEX 코드와 커스텀 팔레트 (custom palettes)를 지원하며, 이는 엄격한 브랜드 가이드라인 내에서 작업하는 디자이너와 마케터들에게 매우 중요합니다. 업계 전반에서 역사적으로 약점으로 지적되어 온 텍스트 렌더링 (text rendering)은 최대 5,000자의 프롬프트를 처리하고 중국어, 영어, 일본어를 포함한 12개 언어에서 정확하게 렌더링하는 전용 기능을 통해 처리됩니다. 표지판, 라벨, 포스터 헤드라인 및 타이포그래피 요소들이 왜곡되지 않고 읽기 쉽게 구현되는데, 이는 대부분의 생성 모델들이 여전히 어려움을 겪고 있는 다국어 캠페인 활용 사례를 가능하게 합니다.

복잡한 장면 구축을 위해, 멀티 레퍼런스 편집 (multi-reference editing)은 픽셀 단위의 로컬 편집 (local editing)과 함께 최대 9장의 참조 이미지를 수용합니다. 이 모델은 Atlas Cloud 및 Alibaba Cloud Model Studio를 통해 API로 접근할 수 있으며, 콘텐츠 파이프라인, 이커머스 시스템 및 맞춤형 애플리케이션으로의 통합을 지원합니다. 표준 출력 해상도는 2K까지 지원되며, Pro 티어에서는 4K를 사용할 수 있습니다. Alibaba에 따르면, 고매개변수 플로우 매칭 (high-parameter flow matching)은 Atlas Cloud의 H200 및 B200 클러스터에 최적화되어 있습니다.

전략적 함의 및 시장 위치

통합 생성 및 편집, 추론 보조 구도 설정 (reasoning-assisted composition), 다국어 텍스트 렌더링, 그리고 일관된 정체성 보존 (consistent identity preservation)으로 구성된 Wan 2.7의 기능 세트는 생성형 AI의 전문적인 도입을 저해해 온 마찰 지점들을 해결하도록 설계되었습니다. Apache 2.0 오픈 소스 라이선스는 이러한 포지셔닝을 더욱 강화하며, 모델을 기존 시스템에 통합하고자 하는 개발자와 조직의 진입 장벽을 낮춰줍니다.

경쟁 구도는 그리 명확하지 않습니다. 6가지 시나리오에 걸쳐 Wan 2.7 Image Pro를 전문 이미지 생성 모델과 비교한 독립 테스트 결과, Wan은 인물 사진 (human portraiture) 부문에서는 우위를 점했으나 나머지 테스트에서는 그렇지 않았습니다. 이 결과는 유능한 제너럴리스트 (generalist)에게 기대할 수 있는 모습과 일치합니다. 즉, 광범위한 작업에 걸쳐 강력한 성능을 보이지만, 반드시 모든 전문 영역에서 선두를 달리는 것은 아니라는 점입니다.

Wan 2.7이 확립한 것은, 이 분야가 지금까지 해결하기보다는 우회해 왔던 문제에 대한 신뢰할 수 있는 접근 방식입니다. 즉, 모델이 단순히 생성하는 것에 그치지 않고, 생성하려는 내용에 대해 추론(reasoning)하도록 만드는 것입니다. 이러한 아키텍처(architectural) 측면의 베팅이 지속적인 우위로 이어질지는 Alibaba가 향후 릴리스에서 Thinking Mode를 어떻게 발전시키느냐에 달려 있습니다. 창의적 제작을 위한 통합 AI 상호작용 레이어 (unified AI interaction layers)를 평가 중인 기업들에게 Wan 2.7은 진지하게 검토해 볼 가치가 있습니다. 다만, 특화된 작업에는 여전히 전문화된 도구가 필요할 수 있다는 점은 유의해야 합니다. AI 연구 및 돌파구에 대한 더 많은 소식은 저희의 AI 연구 섹션 (AI Research section)을 방문해 확인하세요.

_원문 게시지: https://autonainews.com/alibabas-wan-2-7-unleashes-thinking-mode-for-breakthrough-ai-video-image/

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0