어떤 이미지든 플레이 가능한 게임으로 변환할 수 있는 심층 신경망 (DNN)! 단, 데이터센터가 아닌 로컬에서 실행 가능
요약
이미지를 실시간 플레이 가능한 게임으로 변환하는 소규모 트랜스포머 기반 신경망 모델을 소개합니다. 소비자용 하드웨어에서 실행 가능하도록 설계되었으며, 키보드 입력에 따라 자기회귀적으로 프레임을 생성합니다.
핵심 포인트
- 소비자용 GPU에서 실행 가능한 경량화된 DNN 설계
- 트랜스포머 구조를 활용한 자기회귀적 프레임 생성
- 사용자의 키보드 입력을 실시간 순전파 과정에 반영
- 현재 0.5B 모델 단계이며 0.8B 모델 학습 진행 중
안녕하세요 여러분!! 제가 연구해 온 내용을 정말 공유하고 싶었습니다.
게임을 시뮬레이션할 수 있는 신경망 (nn)을 만들고 싶었고, 적어도 그 작업을 시작하고 싶었습니다.
대부분의 비디오 생성기 (video generators)는 소비자용 하드웨어에서 실시간으로 실행하기에는 너무 크기 때문에, 저는 이를 처음부터(from scratch) 수행하는 모델을 설계했습니다. 파인 튜닝 (fine tuning) 같은 헛소리 없이 말이죠.
핵심 디노이저 (de noiser) 네트워크는 이 목표를 지원하기 위해 처음부터 완전히 학습되었습니다. 이미지에서 게임 데이터로 말입니다.
위의 비디오는 RTX 5090에서 실행되었습니다.
이 신경망 (nn)은 작은 트랜스포머 (Transformer) 스타일의 모델이며, LLM과 마찬가지로 인과적 (causal) 방식으로 작동합니다.
이를 통해 우리는 모든 과거 정보를 KV 캐시 (KV Cache) 할 수 있으며, 우리가 원하는 모든 새로운 프레임에 대해 간단한 자기회귀적 (autoregressive) 디코딩 순전파 (decode forward passes)를 수행할 수 있습니다.
공유된 비디오에서 모델은 0.5B 변체 (variant)이며, 부족한 움직임, 일부 이상한 깜빡임, 일부 컨텍스트 (context) 문제와 같은 상당한 문제점들이 있습니다.
모델은 제가 실시간으로 입력하는 키보드 동작을 받아 순전파 (forward pass) 과정에서 활용합니다. (다만 분류기 없는 가이드 (classifier free guidance)는 적용되지 않았습니다)
현재 다음 단계인 0.8B 모델을 학습시키고 있습니다.
참고로 아직 양자화 (quantisation)를 하지 않았는데, 이를 통해 훨씬 더 많은 시간을 절약할 수 있습니다. bf16은 느립니다.
submitted by /u/lucidml_lover
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기