SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

비디오게임 관점에서 보면 이런 월드 모델은 잘 와닿지 않음
직접 게임 개발자는 아니지만, 좋아하는 게임들에는 깊은 의도성이 있음. 예를 들어 FromSoftware 게임이나 최근의 Lies of P에서는 보통 물건 하나도 허투루 놓이지 않고, 거의 모든 오브젝트가 의도적으로 배치됨
이런 의도성이 없는 게임은 대조적으로 죽어 있는 느낌이 나고, 몰입을 깨거나 개발자가 전달하려는 경험에서 빠져나오게 만듦
월드 모델이 이런 의도성을 포착하는 수준까지 갈 수 있을지 상상하기 어려움. 최상위 LLM도 글쓰기에서 자주 실패하고, 코드에서도 그렇고, 그 매체들의 경험 표면은 비디오게임의 사용자 상호작용 범위보다 더 작아 보임
사람이 의도적인 경험을 만들고 싶을 때 이런 월드 모델을 어떻게 모듈식으로 쓸 수 있을지도 불분명함. LLM은 텍스트를 만들고 사람이 고치고 다른 LLM이 이어받는 식으로 어느 정도 모듈화되어 있는데, 여기의 비디오 출력도 같은지 모르겠음
결국 월드 모델 자체는 인상적이지만, 글쓰기용 LLM처럼 우리가 무엇을 향해 만들고 있는지 분명하지 않음. 덜 만족스럽고 덜 인간적인 경험을 더 빨리 만들 수 있게 되는 것인지, 아니면 로봇 시스템이 세계를 만들어 행동의 결과를 상상하며 시뮬레이션하는 게 가장 즉각적인 이점인지 모르겠음
전반적으로 우리가 경험하는 모든 것 뒤의 의도성이 줄어드는 세계로 돌진하는 느낌이고, 모든 것이 더 비인격적이고 더 시끄러워지는 듯함

여기에는 두 가지가 있음. 첫째, AI가 없어도 정교하게 설계된 환경과 절차적 생성 환경은 모두 가능하고, 둘 다 잘 만들 수 있음. 반대로 둘 다 각 방식 특유의 이유로 실패할 수도 있음
부주의한 절차적 생성은 다양성이 부족하거나 말이 안 되는 결과를 만들 수 있고, 부주의한 수동 배치는 게임이 세운 규칙을 어겨 일관성 없는 경험을 만들 수 있음
명시적 배치로 내부 일관성을 유지하는 일은 규모가 커질수록 어려워짐. 내부 일관성이 품질에 영향을 주는 요소라면, 어느 규모부터는 생성 콘텐츠가 오히려 더 높은 품질의 해법이 될 수 있음
둘째, AI로 콘텐츠를 만들 때도 부주의에 관한 같은 규칙이 적용됨. 원하는 것을 구성하는 선택지가 거의 없는 생성 AI 도구도 있지만, 그것이 AI의 필수 속성은 아님. 사람들이 단순한 인터페이스를 원해서 그런 경우도 있고, 생성기가 아직 새로워서 세밀한 제어보다 일단 뭔가를 하게 만드는 데 집중하느라 제어 장치가 제한적인 경우도 있음
어떤 면에서는 아직 너무 새로워서 어떤 제어 가능성이 바람직한지 설명하기 어렵고, 먼저 생성기를 만들어 사람들이 무엇을 하길 원하는지 보는 것이 원하는 제어 기능을 만들기 전의 합리적인 경로라고 봄. 생성물의 스타일, 오브젝트 배치, 카메라 움직임, 장면 구성을 높은 수준으로 제어하는 도구도 있지만 훨씬 적은 사람만 접함
AI는 없었다면 만들 수 없던 것을 가능하게 해줄 수 있지만, 특별한 것을 만들려면 여전히 세심함이 필요함

맞음. 겉보기에는 그럴듯하지만 속은 빈 콘텐츠로 세상을 범람시키게 됨. 원하는 주제를 붙이는 것도 가능함
안목이 낮은 사람들은 불평하지 않겠지만, 나머지는 물량에 밀려 100개 중 99개가 소음인 상태에서 1개를 찾기 위해 점점 더 많은 시간을 써야 할 것임
Amazon과도 꽤 비슷함. 망가진 정렬, 조작된 단가 표시, 값싼 복제품의 홍수가 결합해 사용자가 포기하고 상위에 뜬 상품, 즉 추천 목록이나 Amazon 복제품을 사게 만듦
여러 상품을 웹 검색해서 이미지 탭으로 가보면 Amazon 상품 링크가 결과의 50~90%를 차지하는 경우도 많음

이런 모델은 옛 Gutenberg 인쇄기와 비슷해질 것 같음. 콘텐츠 양이 급격히 늘고, 대부분은 별로 좋지 않을 것임
하지만 압도적인 양 덕분에 전체적으로는 고품질 콘텐츠도 더 많이 만들어질 수 있음. 달리 말하면 평균 게임 품질은 내려가겠지만, 실제로 “훌륭한” 게임이 나오는 속도는 올라갈 것임

지금 AI 전반에서 벌어지는 일의 본질을 짚은 것 같음. 그래픽, 이미지, 비디오, 음악, 텍스트, 코드 모두 보기에는 대단해도 공허하고 무가치하게 느껴짐
삶의 어떤 작업이든 결과의 품질은 그 뒤에 들어간 관심과 의도의 직접적인 반영임. 단순화하면 얼마나 공을 들였는지의 반영이고, 그건 항상 드러남. AI 시대에도 마찬가지임
다만 노력 없이 결과로 가는 길이 훨씬 짧아져서 물량이 늘고 전체 인상을 희석하고 있음. 이런 값싼 결과물은 닿는 모든 분야를 싸구려처럼 만들기 때문에, 눈에 띄려면 오히려 더 많은 노력이 필요해질 것임

FromSoftware나 Lies of P처럼 모든 물건이 의도적으로 배치된 사례는 꽤 특정하고 한쪽으로 치우친 예시임
정교한 아이템 배치에 의존하지 않는 좋은 게임도 많음. 예를 들어 Bethesda의 많은 게임은 대부분의 물건이 쓸모없는 장식이라서 훌륭했는데, 최근작에서 잡동사니에 목적을 부여하며 그 규칙을 깨자 훨씬 나빠졌음
이런 의도성에 전혀 기대지 않는 좋은 게임도 많고, 말 그대로 멋진 아이디어를 무작위로 던져 붙인 것이거나 절차적으로 생성된 경우도 있음

모델 가중치가 “곧” 나온다는 건 현재로서는 베이퍼웨어라는 뜻임. 가중치도 공개되지 않았는데 어떻게 “오픈소스”라고 부를 수 있나
2.8B 모델에서 이런 결과가 나온다는 데 모두가 회의적인 건 당연함. 가중치가 없으면 일어난 일이 아님

2.6B라고 하지만, 그다음에 이런 문구가 있음
“전용 17B 장문 비디오 정제기가 긴 롤아웃 백본 위에서 질감, 움직임, 후반 구간 품질을 선명하게 만든다”

전부 비디오게임처럼 보임. 아마 Unreal Engine으로 학습용 합성 데이터를 만들었을 것 같음

GPU에서 이걸 돌린다는 건 꽤 인상적임. 불만과 걱정을 표현하는 사람도 보이지만 아직 초기이고, 지금이 가장 나쁜 상태일 것이라서 이것이 게임에 미칠 영향이 매우 기대됨

어리석은 질문일 수 있는데, 여기서 생성되는 것의 어디가 “월드”인가? 실제 물리 공간의 추상 표현, 예를 들어 게임 엔진식 장면 그래프 같은 게 있는 건가, 아니면 그냥 “이 비디오 생성기가 다른 비디오 생성기보다 물리적으로 더 일관적이다”라는 뜻인가

월드 모델은 현재 상태와, 선택적으로 그 세계에 사는 에이전트의 행동이 주어졌을 때 시뮬레이션된 세계의 다음 상태를 예측하는 모델임. 다음 단어를 예측하는 언어 모델과 꽤 유사함
그 세계 상태는 무엇이든 될 수 있지만, 최근 1~2년 사이에는 더 좁은 의미로 쓰이게 됨. 게임 같은 조작에 자연스럽게 반응해서 마치 비디오게임을 시뮬레이션하는 것처럼 보이는 비디오 생성 모델을 뜻함. 다만 비디오 프레임 뒤에 추가 상태가 있는 것은 아님

이 맥락에서 월드는 이 비디오들이 비디오게임처럼 상호작용 가능하다는 뜻임. 링크된 예시에서 키보드와 마우스 입력을 볼 수 있음
모델은 약 1분 동안 장면 일관성을 유지하도록 학습되어 있어서, 주변을 둘러본 뒤 화면 밖으로 나간 물체도 다시 그 방향을 보면 재등장함

다운로드는 어디 있나? GitHub에서는 못 찾겠고, 웹페이지의 다운로드 버튼은 비활성화되어 있음
그리고 24GB 메모리의 RTX 4090에서 실행될까?

탭에 페이지를 열어둔 지 한 시간 넘게 지나서야 알아챘음. 정말 같은 비디오를 계속 스트리밍하고 다시 스트리밍하는 건가? 캐시하기에는 너무 많아서 무한히 다시 전송하는 것인가
종량제나 제한 있는 네트워크에서 그 페이지를 열어두는 사람이 없었으면 좋겠음
GitHub가 그 페이지를 정지시키지 않은 게 놀라움
AI 연구자들은 연산과 네트워크 자원을 태우는 데 너무 익숙해서, 여러 HD 비디오를 자동 재생하고 반복 재생하는 웹페이지에 대해 생각을 멈추는 건가

내 70Mbps 연결로는 비디오를 버퍼링조차 못 해서 보기를 포기했음. 그렇게 고화질처럼 보이지도 않았음

2.6B 모델이 1분짜리 비디오를 저 품질과 일관성으로 출력한다는 건 말이 안 될 정도로 대단해 보임

첫 번째 눈 덮인 산에서 남자가 걷는 비디오는 동굴 입구 일관성 문제가 있음. 이 모델 크기에서는 “예상된” 일인가

대부분의 비디오에 그런 문제가 좀 있어 보임. 예를 들어 도서관 비디오에서는 탁자 위 책의 형태가 때때로 달라짐
예시들이 대표적이라면 ‘Refiner’ 효과는 오히려 반대로 작동하는 것 같음. 모든 경우에서 1단계 이미지가 ‘정제된’ 이미지보다 더 좋아 보임. 잡동사니가 적고, 더 현실적이고, 그 표현을 아는 사람에게는 “카우벨”이 덜한 느낌임

모든 비디오가 이전에 보여준 영역으로 방향을 다시 돌릴 때 꽤 눈에 띄는 일관성 문제를 보임

SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

요약

핵심 포인트

댓글