본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 06. 10. 13:57

NVIDIA의 새로운 AI, 단 한 장의 사진을 결코 깨지지 않는 세계로 변환하다

요약

NVIDIA의 Lyra 2.0은 단 한 장의 이미지로부터 탐험 가능한 일관된 3D 세계를 생성하는 기술입니다. 기존 모델과 달리 장면의 뼈대(scaffolding)를 기억하는 방식을 통해 시야를 돌렸다가 다시 돌아와도 장면이 깨지지 않는 일관성을 유지합니다.

핵심 포인트

  • Lyra 2.0은 단일 이미지로 3D 시뮬레이션 환경 구축 가능
  • 장면 전체가 아닌 깊이 지도와 포인트 클라우드 기반의 뼈대 기억 방식 채택
  • 시야 전환 시 발생하는 장면 붕괴 문제를 해결하여 일관성 확보
  • 로봇 훈련 및 자율주행 시뮬레이션 데이터 생성에 활용 가능

영상: NVIDIA의 새로운 AI, 단 한 장의 사진을 결로 깨지지 않는 세계로 변환하다
채널: Two Minute Papers
길이: 9분 52초
출처: 자막 (수동, 영문)

전사:
이런 것을 무료로 이용할 수 있다는 게 믿기지 않습니다. 이게 대체 무엇일까요?
자, 학자 여러분, 정신 바짝 차리세요. 단 한 장의 이미지만 있으면, 그것으로부터 탐험 가능한 3D 세계를 만들어냅니다. 정말 멋지죠. 그들은 이것을 Lyra 2.0이라고 부릅니다. 너무 좋아서 마치 사실이 아닐 것처럼 들리기도 하고, 실제로 그런 경우도 많습니다. 왜 그런지 말씀드리겠습니다.

저는 부다페스트(Budapest)에서 자랐고, 지금은 헝가리 남부의 Pécs라는 아름답고 다른 도시에 살고 있습니다. 부다페스트를 방문할 때마다 제가 자란 곳들을 걷는 것을 좋아하는데, 그것은 언제나 믿기 힘든 기분을 선사합니다. 만약 우리가 연구 기술을 사용하여 그 느낌의 아주 작은 부분이라도 전달할 수 있다면, 그것은 환상적인 일이라고 생각합니다.

또는, 단 한 장의 이미지만 필요하다면, 스트리트 뷰 (Street View) 이미지를 가져와서 그것으로부터 비디오 게임 세계를 만들 수도 있습니다. 로봇을 투입하여 그곳에서 안전하게 훈련시키고 훌륭한 로봇이 되는 법을 배우게 할 수도 있죠.

이 개념의 다른 변형은 Cosmos라고 불리며, 조금 다릅니다. 이것은 로봇과 자율주행 자동차 (self-driving cars)를 훈련시키기 위한 시뮬레이션 (simulation) 데이터를 생성합니다. 저는 최근 샌프란시스코 (San Francisco)에서 자율주행 자동차를 시도해 보았는데, 정말 놀라웠습니다... 비록 그 훈련의 일부만이 시뮬레이션 데이터로부터 온다 하더라도, 그 부분은 매우 결정적입니다. 이것은 시뮬레이션이 얼마나 중요하고 유용한지를 보여주는 증거입니다. 시뮬레이션은 어려운 문제들에 대해 예상치 못한 해결책을 열어줍니다.

하지만, 너무 성급하지 마세요. 이것은 그렇게 쉽지 않습니다. 왜냐하면 불행히도... 우리에게 큰 문제가 있기 때문입니다. 이 세계들은 깨져버립니다 (break down).

잠시만요, DeepMind도 이전에 이와 유사한 일을 하지 않았나요? Genie 3 말입니다. 이미지를 넣으면 게임이 나옵니다. 그것은 그림이든, 회화든, 당신이 원하는 무엇이든 될 수 있습니다.

그렇다면 이것은 무엇이 다를까요?

이것도 같은 것일까요? 글쎄요, 아닙니다.

좋습니다, 설명해 보겠습니다. 1년 남짓 전, Minecraft (마인크래프트) 영상 1,000,000시간을 시청했다고 주장하며, 매우 거친 형태의 Minecraft 게임을 우리를 위해 재현해낸 놀라운 AI가 등장했습니다. 그리고 흥미로운 점은 이것이었습니다. 무언가를 바라보았다가, 고개를 돌렸다가, 다시 돌아보면... 어라! 네, 제대로 보셨습니다. 방금 그런 일이 일어났습니다. 우리가

좋습니다, 그렇다면 그것이 무엇을 의미할까요? 그것은 장면(scene)에 대한 작은 3D 메모리를 유지한다는 것을 의미합니다. 더 쉬운 말로 표현하자면, 세상 전체를 있는 그대로 기억하는 것이 아니라, 세상의 뼈대(scaffolding)만을 기억하는 것입니다. 그러고 나서 나머지 부분을 일관되게 재구성할 수 있습니다. 따라서 시선을 돌렸다가 다시 돌아보았을 때, 완전히 새로운 것을 처음부터 만들어내는 것이 아닙니다. 아니요, 대신 이렇게 생각하는 것이죠. '잠깐, 방금 전에는 무엇이 있었지? 알았다!' 이제, 장면 전체를 있는 그대로 저장하는 것이 아니라, 깊이 지도(depth map), 그들이 다운샘플링된 포인트 클라우드(downsampled point cloud)라고 부르는 것, 그리고 약간의 카메라 움직임 정보(camera movement info)를 가지고 있습니다.

그것은 환상적입니다. 하지만 알고 보니... 그것만으로는 충분히 환상적이지 않았습니다. 이 깊이 지도(depth map)는 전체 글로벌 장면(global scene)을 위한 것이 아닙니다. 왜냐하면 모든 것을 하나의 거대한 3D 세상으로 융합하려고 시도하면, 시간이 지남에 따라 오차(errors)가 누적되는 방식으로 처리되기 때문입니다. 아주 작은 실수들이 쌓이기 시작하고, 시간이 흐르면서 점점 더 부패(corrupted)하게 됩니다. 마치 무언가를 복사한 복사본을 만들고, 그 복사본을 다시 복사하고... 어떤 결과가 되는지 아시죠? 단계가 거듭될수록 품질이 점점 더 낮아집니다. 좋지 않은 상황이죠.

좋습니다, 그럼 해결책은 무엇일까요? 대신, 각 시점(view)에 대해 별도의 작은 3D 스냅샷(snapshot)을 유지합니다. 그러고 나서 나중에 다시 돌아왔을 때, '이전의 어떤 시점들이 이곳을 가장 잘 보았는가?'라고 물을 수 있습니다. 그리고 그것들을 메모리로 사용합니다. 이는 정말 놀라운 아이디어입니다.

그렇다면 이것이 정말로 작동할까요? 어블레이션 연구(ablation study)가 그 답을 보여줍니다. 이 논문은 훌륭하기 때문에 수많은 퍼즐 조각들을 제안하며, 단순히 그것들을 하나의 블록으로 묶어서 '보세요! 작동합니다!'라고 말하지 않습니다. 아닙니다. 모든 새로운 퍼즐 조각을 개별적으로 테스트하여, 각각의 조각이 전체 그림에 얼마나 기여하는지를 우리에게 알려줍니다.

만약 전체 장면을 전역적 (globally)으로 저장한다면, 스타일 일관성 (style consistency)은 다소 악화될 것이고, 카메라 제어 (camera control)는, 세상에, 그야말로 재앙이 될 것입니다. 그것이 어떤 모습인지 볼 수 있을까요? 이 논문은 훌륭하기 때문에, 정답은... 네! 세상에나. 전역적 장면 (global scene) 방식을 사용하면 잘못된 카메라 뷰를 생성하기 시작합니다. 반면, 제안된 전체 기술은 보여주어야 할 모습에 훨씬 더 가깝습니다. 이는 이러한 개념들이 실제로 작동한다는 것을 정말 잘 보여줍니다. 이것이 바로 그들이 프레임당 장면의 스캐폴딩 (scaffolding)을 기억할 것을 제안하는 이유입니다. 훨씬 더 좋네요! 정말 마음에 듭니다. 논문에는 훨씬 더 많은 내용이 담겨 있으며, 우리는 여기서 정말 표면만 긁어본 것에 불과하다는 점을 유의하세요.

하지만, 이 기술조차 완벽하지는 않습니다. 한계점 (Limitations)들이 있습니다.
첫째, 정적 장면 (Static scenes)만 가능합니다. 움직이는 물체는 안 됩니다.
둘째, 학습 데이터 (training data)로부터 결함을 물려받습니다. 즉, 광도 불일치 (photometric inconsistencies)가 있는 데이터셋을 사용한다면, 그 결함도 그대로 물려받게 됩니다. 그것이 무엇을 의미할까요? 음, 서로 다른 종류의 조명 (lighting)과 노출 (exposure)이 포함된 데이터를 입력하면, 예측 결과물에도 그것이 나타나게 됩니다. 당연한 결과입니다. 학습 데이터가 세상이 어떻게 돌아가는지 알려주며, 모델은 조명과 노출이 마음대로 변할 수 있다고 생각하기 때문입니다.
셋째, 이를 통해 얻은 3D 기하 구조 (3D geometry)에는 아티팩트 (artifacts)와 이 이상한 작은 부유물 (floaters)들이 포함될 수 있습니다. 흠.. 하지만 왜 그럴까요? 문제는 생성된 뷰들이 서로 완벽하게 일치하지 않는다는 점이며, 이로부터 3D를 재구성 (reconstruct)하려고 할 때 이러한 작은 불일치들이 부유물과 노이즈 (noise)로 변할 수 있습니다.
제 생각을 묻는다면, 이것들은 이러한 작업의 첫 번째, 혹은 이번 경우처럼 두 번째 버전에 있어 매우 전형적인 문제들입니다. 그리고 이 세 가지 문제 모두가 다음 논문 한 편만 더 나오면 해결될 것이라는 점 또한 매우 전형적입니다. 기억하세요, 이것이 논문의 제1법칙입니다.

우리가 현재 어디에 있는지 보지 말고, 논문 두 편 정도가 더 지나갔을 때 우리가 어디에 있을지를 보십시오. 그래서 마침내, 우리는 단 한 장의 사진만으로도 무너지지 않는 놀라운 디지털 세계를 만들어낼 수 있게 되었습니다. 드디어 해낸 것입니다. 정말 환상적입니다. 그리고 이 모든 것, 모델과 코드를 무료로 얻을 수 있다고요? 네! 정말 살기 좋은 시대입니다! 우리 동료 학자들과 tinkerer(만지작거리는 사람들)들에게는 정말 큰 선물입니다. 이것에 대해 정말 감사드립니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0