본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 05. 28. 04:16

NVIDIA의 새로운 AI는 작동하지 않아야 하지만... 실제로 작동합니다

요약

NVIDIA의 DreamDojo 연구는 방대한 비디오 데이터를 활용하여 로봇이 물리적 동작을 학습하는 새로운 방법을 제시합니다. 시뮬레이션과 현실의 간극을 극복하기 위해 텍스트 라벨 없이도 비디오 속 동작을 스스로 이해하는 AI 모델을 제안합니다.

핵심 포인트

  • 시뮬레이션과 현실 세계 사이의 물리적 격차 문제 해결 시도
  • 44,000시간 분량의 방대한 비디오 데이터셋 활용
  • 텍스트 라벨 없이 비디오 자체에서 동작 정보를 추론하는 방식
  • 인간과 로봇의 신체 구조 차이를 극복하기 위한 천재적 접근법

영상: NVIDIA의 새로운 AI는 작동하지 않아야 하지만... 실제로 작동합니다
채널: Two Minute Papers
길이: 9분 8초
출처: 자막 (수동, 영문)

동료 학자 여러분, Károly Zsolnai-Fehér 박사가 진행하는 Two Minute Papers입니다.
저희는 카메라를 사용하여 영상을 제작하는 시도를 해왔습니다. 저는 정말 즐거웠고, 여러분의 피드백 또한 정말 믿기지 않을 정도로 놀라웠습니다. 이런 경험은 처음입니다. 정말 많은 댓글을 남겨주셨는데, 모두의 따뜻한 말씀에 진심으로 감사드립니다.
그래서 앞으로 이런 시도를 더 많이 해보려고 합니다. 하지만 이번 영상은 저희가 항상 해왔던 전형적인 보이스 페이퍼 (voice paper) 방식이라는 점을 참고해 주세요. 카메라를 도입하기 전에 제작된 것이라, 여러분이 놀라지 않도록 지금 짧은 인트로를 녹화해 두었습니다. 다음 영상에서는 다시 카메라와 함께 돌아오겠습니다. 그럼 지금은 이 매우 재미있는 논문을 즐겨주시기 바랍니다.

로봇은 어떻게 좋은 로봇이 되는 법을 배울까요?
음, 분명 이런 방식은 아닐 겁니다. 하하. 그냥 현실 세계에서 뛰어다니는 것만으로는 안 되겠죠. 당연합니다! 실제 로봇이 수년 동안 이런 식으로 행동한다고 상상해 보세요. 타인과 로봇 자신에게 위험할 것입니다. 그래서 더 나은 질문을 던져보겠습니다. 어떻게 하면 로봇에게 도움이 되고 착한 로봇이 되는 법을 안전하게 가르칠 수 있을까요?
그 방법은 바로 로봇을 비디오 게임 안에 넣는 것입니다.
거기서 먼저 학습을 시작하는 거죠! 게임 속에서 우리는 물리 법칙 (physics)을 시뮬레이션 (simulate)하고, 로봇이 실패하도록 둡니다.
아주 많이 말이죠. 그러다 시간이 흐르면서 점점 더 나아지게 됩니다.

저는 전 세계의 수많은 AI 및 로보틱스 (robotics) 연구실을 방문해 왔는데, 제가 본 것을 짧게 요약해 보겠습니다.
시뮬레이션 (simulation) 안에서는 모든 것이 환상적으로 잘 작동하지만, 그것을 실제 세상에 가져다 놓으면 엄청난 실망을 하게 됩니다. 정말 잘 작동하던 것이 갑자기 잘 작동하지 않거나 아예 작동하지 않게 됩니다.
왜 그럴까요? 주된 이유는 시뮬레이션이 종종 충분히 뛰어나지 않기 때문입니다. 시뮬레이션은 현실을 모방하긴 하지만, 현실을 대체할 수는 없습니다.
그렇다면 우리는 무엇을 해야 할까요?

글쎄요, 당연히 현실을 사용하려고 노력해야겠죠. 이번 연구인 DreamDojo에서 과학자들은 좋습니다, 인간이 무언가를 하는 44,000시간 분량의 비디오를 AI에게 먹여봅시다, 라고 말했습니다.
이것은 아주 훌륭하게 들리지만, 완전히 쓸모없다는 사실 하나만 빼면 말이죠.
왜일까요? 글쎄요, 인간과 로봇은 신체 구조, 손, 그리고 관절(joints)이 완전히 다르기 때문입니다. 또한, 비디오에는 동작 정보(action information)가 포함되어 있지 않습니다. 그것은 어떤 관절이 어떤 힘을 가하고 있는지, 그리고 어떻게 가하는지를 말해주지 않는 그저 데이터의 덩어리일 뿐입니다. 아무것도 없죠.
그렇다면 왜 이런 일을 할까요? 이것이 과연 말이 될까요?
글쎄요, 그들은 4가지 천재적인 아이디어를 제안했고, 저는 그것이 이 작업을 성공하게 만들기를 바랍니다. 왜냐하면 만약 성공한다면 그것은 기적일 것이기 때문입니다.
첫째, 만약 비디오에 어떤 동작이 일어나고 있는지에 대한 라벨(labels)이 없다면, 음, 그렇다면 AI가 그것을 이해하려고 노력하고 무슨 일이 일어나고 있는지에 대해 스스로 이야기를 만들어내게 하는 것입니다. 만약 당신이 떠나가는 버스를 향해 누군가 손을 흔드는 것을 본다면, 누군가 방금 차를 놓쳤다는 것을 알기 위해 텍스트 라벨이 필요하지는 않습니다.
둘째, 이 데이터셋은 엄청나게 방대합니다. 40억 개 이상의 프레임(frames)을 가지고 있으며, 아마도 1경(quadrillion) 개 이상의 픽셀(pixels)을 포함하고 있을 것입니다. 좋습니다, 이건 정보가 너무 많습니다. 다루는 것이 거의 불가능할 정도죠. 따라서 AI는 무엇이 중요하고 무엇이 중요하지 않은지를 배워야 합니다. 어떻게 말인가요? 글쎄요, AI는 정보 압축(compress)을 강요받게 됩니다. 음악가는 우주의 모든 노래를 알 필요가 없습니다. 그들은 음계에 12개의 음이 있다는 것을 알아야 하며, 모든 노래는 단지 이러한 근본적인 음들의 조합으로 만들어진다는 것을 알아야 합니다. 이것은 AI가 가장 중요한 정보만을 보도록 강제합니다.
하지만 그거 아세요? 단순히 비디오를 로봇에게 쏟아붓는 것만으로는 여전히 충분하지 않습니다. 왜일까요?
글쎄요, 셋째, 만약 당신이 로봇에게 전역 위치(global position)에서 컵을 집도록 훈련시킨다면, 로봇은 세상의 바로 그 정확한 지점을 향해 손을 뻗는 법을 배웁니다. 그것은 좋지 않습니다. 왜일까요?

글쎄요, 만약 컵을 왼쪽으로 몇 인치만 옮긴다면, 전역 좌표 (global coordinates)가 완전히 바뀌어 버리고 로봇은 무엇을 해야 할지 전혀 알지 못하게 됩니다.

그래서 과학자들은 로봇의 절대적인 관절 포즈 (absolute robot joint poses)를 사용하는 대신, 입력을 상대적인 행동 (relative actions)으로 변환하자고 제안했습니다. 요리를 할 때, 때로는 절대 좌표가 필요하지 않을 때가 있습니다. 여기서는 칼이 당근의 위치를 기준으로 자신이 어디에 있는지만 알면 됩니다.

그런데 믿기 어렵겠지만, 이것조차 여전히 작동하지 않습니다. 우리는 더 많은 것이 필요합니다. 무엇이 필요할까요?

네 번째로, 목표는 AI가 인과관계 (cause and effect)를 배우는 것입니다. 젤리 버니 (Jelly bunny)가 벽을 치면, 어떤 일이 일어납니다. 다음 프레임을 예측함으로써 이를 학습하도록 시도해 보세요.

문제는 AI가 부정행위를 한다는 것입니다. 마치 학생처럼, 마지막에 있는 정답을 슬쩍 보고는 "오 그래, 나도 딱 그렇게 말하려고 했어"라고 말하는 식이죠. 그렇다면 그들은 어떻게 이를 방지했을까요?

그들은 한 번에 4개씩 작은 블록 단위로 행동을 입력하여, AI가 지금 무슨 일이 일어날지 추측하기 위해 미래를 훔쳐보는 방식으로 부정행위를 할 수 없게 만들었습니다.

좋습니다, 이것은 매우 천재적인 내용들이었으니, 우리에게 놀라운 무언가를 보여줘야 할 것입니다. 결과가 어떤지 봅시다. 이전 방식 (Previous method)은... 미래를 예측할 수 없군요... 세상에, 저 손이 종이를 뚫고 지나가 버립니다 (clips through).

자, 동료 학자 여러분, 새로운 방식이 나올 테니 종이를 꼭 붙잡으세요. 그리고... 세상에! 저것 좀 보세요! 종이가 마침내 아름답게 구겨집니다!

이전 방식에서는 클리핑 (clipping) 현상이 훨씬 더 심해집니다. 보세요. 저것은 현실을 예측하는 것이 아니라 그냥 추측하는 것뿐입니다. 새로운 기술 (New technique) - 이제야 말이 통하네요! 아주 좋아 보입니다!

또한 이전 기술에서는 손이 뚜껑을 움직이려 해도 뚜껑이 움직이기를 거부합니다. 별로군요. 새로운 기술에서는 뚜껑이 움직입니다! 우후! 네, 이곳은 움직이는 뚜껑 하나에 터무니없이 행복해하는 인터넷의 한 구석입니다.

그리고 이것은 단순히 선별된 결과들이 아닙니다. 새로운 기술은 이전 방식들보다 훨씬 더 뛰어납니다. 이것은 거대한 도약입니다!

이제, 여기서 더 놀라운 점이 있습니다. 이 모델은 마침내 이전 기술들보다 세상을 더 잘 이해합니다. 그렇다면 우리는 무엇을 대가로 지불해야 할까요? 이전 방식들보다 얼마나 더 느릴까요?

글쎄요, 단 하나의 예측을 생성하기 위해서만 35단계의 무거운 디노이징 (Denoising) 단계가 필요하기 때문에 상당히 느립니다. 하지만 잠깐, 절망하지 마세요!

여기서 지식 증류 (Distillation)를 사용할 수 있습니다. 지식 증류 (Distillation)란 빠른 학생 모델 (Student model)이 더 느리고 고품질인 교사 모델 (Teacher model)의 예측을 학습하는 훈련 단계입니다. 목표는 학생 모델이 교사 모델만큼 성능이 좋으면서도 훨씬 더 빨라지는 것입니다.

자, 테스트해 봅시다! 세상에, 이제 학생 모델이 훨씬 더 빨라졌습니다. 자신을 훈련시킨 교사 모델보다 4배나 더 빠른 것 같군요. 초당 약 10프레임 (10 FPS)의 속도로 실행됩니다. 세상을 이해하고 그것이 어떻게 변할지 예측하는 속도가 상호작용이 가능한 수준이라니, 이건 정말 말도 안 됩니다. 잘 해냈군요! 그리고 핵심은 그들이 매우 유사한 결과물도 예측한다는 점입니다. 이것은 그야말로 완벽한 논문 (Slam dunk paper)입니다. 와.

이제 현명한 학자 여러분을 위해 한 가지 언급하자면, 우리가 NeRD (Neural Robot Dynamics, 신경 로봇 역학)라고 불리는 기술에 대해 이야기했다는 점을 말씀드리고 싶습니다. 그것은 자신의 상상 속에서 훈련하는 로봇 AI였습니다. 그렇다면 이것은 그것과 어떤 관련이 있을까요? NeRD는 완벽한 3D 환경을 구축했습니다. 반면 이것은 2D로 생각합니다. 그저 세상을 평평한 TV 화면 위의 2D 비디오 픽셀 뭉치로 볼 뿐입니다. 따라서 이 모델은 수천 개의 일상적인 물체들에 대해 학습할 수 있습니다. 정말 멋지네요!

이것은 마침내 우리에게 더 똑똑한 AI 로봇과,
우리 모두가 직접 소유할 수 있는 로봇을 제공합니다.
구독 서비스로 가득 찬 세상에서,
이 모든 것을 무료로 얻을 수 있다는 점은 매우 신선합니다.
수많은 코드와 사전 학습된 (pre-trained) 모델들이 우리 모두를 위해 무료로 공개되어 있습니다.
어리석은 구독 서비스나 독점적인 (proprietary) 코드도 없습니다.
여러분의 개인 기기에 업로드하여 원하는 대로 사용할 수 있는 자유로운 두뇌입니다. 정말 멋지네요.
따라서 이것은 마침내 로봇이 우리의 빨래를 개거나,
건강한 식사를 요리하는 단계에 한 걸음 더 다가서게 합니다. 혹은 원격 조작 (teleoperation)을 통해
지구 반대편에서 전문의가 수술을 수행하도록 돕는 단계 말이죠. 정말 살기 좋은 시대입니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0