비디오 월드 모델을 게임으로 변환하며 배운 점
요약
글쓴이는 1년간 실시간 비디오 월드 모델을 이용해 게임을 구축한 경험을 공유합니다. 핵심은 월드 모델이 단순히 훌륭한 렌더러일 뿐이며, 객체 상호작용이나 상태 같은 규칙은 모델 외부에서 관리되어야 한다는 점입니다.
핵심 포인트
- 월드 모델은 그 자체로 게임이 아니며, 훌륭한 렌더러 역할에 머무른다.
- 객체 상호작용 및 게임의 '상태'와 같은 규칙은 모델 외부에서 관리되어야 한다.
- 순수 비디오 월드 모델은 시각적 정보(픽셀)를 통해 사건을 파악해야 한다.
여러분 안녕하세요! 배경 설명을 조금 드리자면, 저는 거의 1년 동안 실시간 비디오 월드 모델(video world models)로 게임을 구축하는 실험을 해왔습니다. 처음에는 자체 모델을 학습시킨 후, OS에서 제공하는 모델로 전환했습니다. Lingbot으로 구동되는 시나리오의 일부를 보여드리겠습니다: 이 장면은 객체 상호작용, 게이팅(gating), 그리고 월드 이벤트(world events)를 결합하여 진행을 가능하게 합니다. 전반적으로 제가 배운 점은 다음과 같습니다:
첫째, 그리고 당연한 것부터 말씀드리자면: 월드 모델은 게임 자체가 아닙니다. 그것은 훌륭한 렌더러일 뿐입니다. 즉, 당신이 비버라고 가정하고 숲을 아름답게 그려낼 수는 있지만, 당신이 자른 나무의 개수나 댐을 짓고 있다는 사실은 아무것도 알지 못합니다. 상태(state), 규칙 등은 모델 외부에서 살아 있습니다. 순수한 비디오 월드 모델이라는 것은 눈이 필요하다는 의미입니다. 그 안으로 '손을 뻗어' 들어갈 수 없기 때문에 (대부분 게임 상태에 대해 학습되지 않았으므로) 무슨 일이 일어났는지 알 수 있는 유일한 방법은 픽셀을 보는 것입니다. 저희는 실제로 초기에 그런 직관을 가졌습니다: 첫 번째 데모에서는 이미 프레임 비교를 사용하여 이벤트를 트리거했습니다 (데미지, 승리 또는 패배 상태). 오늘날에는 작은 VLM(moondream)이 매 비트마다 실행되어
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기