
NVIDIA의 새로운 AI가 내 머리를 터뜨려 놓았다
요약
NVIDIA가 개발한 Sonic은 인간의 움직임을 3D 관절 위치로 변환하여 로봇을 제어하는 새로운 멀티모달 로봇 컨트롤러입니다. 4,200만 개의 파라미터를 가진 경량 신경망을 통해 텍스트, 영상, 음악 등 다양한 입력을 로봇의 전신 움직임으로 구현합니다.
핵심 포인트
- 인간의 동작을 로봇의 3D 관절 위치로 즉각 변환 가능
- 텍스트, 영상, 음악 등 다양한 입력을 지원하는 멀티모달 시스템
- 4,200만 개의 파라미터로 구성된 효율적인 경량 신경망
- 위험 지역 탐사 및 재난 구조 등 다양한 응용 가능성
영상: NVIDIA의 새로운 AI가 내 머리를 터뜨려 놓았다
채널: Two Minute Papers
길이: 9분 52초
출처: 자막 (수동, 영문)
자, 여기서 무슨 일이 일어나고 있는지 봅시다. 이것은 오전 9시쯤의 제 모습입니다. 약간 비틀거리고, 발걸음이 불확실하네요, 네, 맞습니다. 이제 제 가짜 배지를 주세요. 감사합니다, 선생님. 헤헤헤, 아무도 눈치채지 못했군요. 이제 제 거대한 계획의 다음 단계로 넘어가 봅시다. 그들의 음식을 모두 먹어치우는 겁니다. 잠깐, 눈치챘네요. 다음 단계로 진행합니다. 방금 뭐였죠? 오, 맞아요, 도망쳐!
자, 농담은 제쳐두고, 저것 좀 보세요. 이건 꼭 신청해야 해요. 오, 네, 제 잔디를 깎아주세요. 아주 훌륭합니다. 낙엽을 긁어모으세요! 완벽합니다. 이봐요, 게으름 피우지 마세요, 그건 제 일이라고요!
좋아요, 그럼 여기서 무슨 일이 일어나고 있는 걸까요. 좋은 소식부터 시작하자면, 이것은 새로운 원격 조종 (teleoperated) 로봇 컨트롤러이자 그 이상입니다. 그들은 이것을 Sonic이라고 부릅니다. 여기서 핵심적인 작업은 로봇 자체가 아니라, 로봇을 제어하는 소프트웨어입니다. 적어도 이 영상에서는 말이죠, 끝까지 보시면 놀라실 수도 있습니다. 이것은 인간이 이러한 움직임을 수행하고 있으며, 로봇이 이러한 동작을 이해한 다음, 이를 3D 공간에서의 일련의 관절 위치 (joint positions)로 변환할 수 있음을 의미합니다. 이것이 가능하다는 것이 일종의 광기처럼 느껴질 정도입니다. 하지만 영상을 계속 보시면 점점 더 좋아질 것입니다.
질문하시기 전에 말씀드리자면, 네, 쿵푸를 할 수 있습니다. 여러분이 쿵푸를 할 수 있다는 전제하에 말이죠. 이것은 전신 움직임 (whole body movement)을 이해하기 때문에, 여러분이 가고 싶지 않은 어떤 공간으로 기어 들어가게 할 수도 있습니다. 그리고 그것은 매우 유용합니다. 사람들은 이미 로봇을 그 용도로 사용하고 있습니다. 왜일까요? 주로 탐사되지 않았거나 위험한 지역을 탐사하기 위해서입니다. 이는 수많은 유용한 응용 분야를 의미합니다. 예를 들어, 이것의 변형된 형태는 잔해 아래 갇힌 인간을 구하는 데 도움을 줄 수 있고, 아마 나중에는 인간을 위험에 빠뜨리지 않고 다른 행성을 탐사하는 데에도 쓰일 수 있을 것입니다.
하지만 그것은 아직 아무것도 아닙니다. 왜냐하면 이것은 멀티모달 (multimodal) 시스템이기 때문입니다. 즉, 입력값이 거의 무엇이든 될 수 있다는 의미입니다. 예를 들어, 실제로 잔디를 깎는 시늉을 할 필요가 없다고 말한다면, 왜냐하면 그렇게 하는 게 무슨 재미겠습니까? 그냥 그것에게 그렇게 하라고 말하면 됩니다. 할 수 있냐고요? 글쎄요, 현재로서는 이동하거나 원숭이처럼 행동하는 것과 같은 더 간단한 작업들에 대해서는, 네, 가능합니다! 정말 믿기지 않을 정도입니다. 그리고 이 시스템이 얼마나 표현력이 풍부한지도 정말 마음에 듭니다. 행복하게 걷거나, 은밀하게, 혹은 부상당한 사람처럼 걷도록 요청할 수 있습니다. 그리고 아시다시피, 이 시스템이 안정적이고 넘어지지 않는다는 사실 그 자체만으로도 놀랍습니다. 이전에는 시뮬레이션된 세계 속의 단순한 캐릭터들에게조차, 넘어지지 않고 걷는 법을 가르치기 위해 수천 번, 수만 번의 시도가 필요했습니다. 그런데 이제 이것은 거대한 도약입니다. 와우.
하지만 더 좋아집니다. 우리가 멀티모달이라고 말했죠. 맞습니다, 그것은 입력값이 음악이 될 수도 있다는 것을 의미합니다. 춤추는 모습은 보여드리겠지만, 유튜브 사정상 음악은 보여드릴 수 없으니, 설명란에 확인하실 수 있는 링크를 남겨두겠습니다.
그리고 우리는 이 모든 것 중 가장 미친 부분에 대해서는 아직 이야기조차 하지 않았습니다. 동료 학자 여러분, 이제 종이를 꽉 잡으세요. 왜냐하면 이것은 약 4,200만 개의 파라미터 (parameters)로 구동되기 때문입니다. 이것은 너무나 단순한 신경망 (neural network)이라서, 여러분의 휴대폰에서 거의 인지하지 못할 정도로 쉽게 실행될 수 있습니다. 요즘 같은 시대라면 여러분의 토스터기에서도 실행될 수 있을 정도입니다. 그 정도 크기는 정말 아무것도 아닙니다. 이것은 믿기 힘든 성취입니다.
좋습니다, 하지만 어떻게 말입니까? 어떻게 그것이 가능할까요? 친애하는 동료 학자 여러분, 여기는 Károly Zsolnai-Fehér 박사가 진행하는 Two Minute Papers입니다. 우선, 이 시스템은 우리가 무엇을 어떻게 하는지 이해하기 위해 1억 프레임의 인간 움직임을 살펴보았습니다.
놀라운 점은 이 시스템이 사람이 만든 동작 레이블 (action labels)을 필요로 하지 않는다는 것입니다. 따라서 우리가 움직임을 일일이 설명할 필요가 없습니다. 시스템은 그저 가공되지 않은 움직임 (raw motions)을 관찰하고, 부자연스러운 멈춤 없이 작업 간의 전환 방법을 스스로 파악합니다!
그다음, 여러분의 비디오, 목소리, 음악 또는 단순한 텍스트와 같은 멀티모달 입력 (multi-modal input)이 들어갑니다. 모션 생성기 (motion generator)가 이를 인간의 움직임으로 변환하고, 인간 인코더 (human encoder)가 이를 잠재 공간 (latent space)으로 처리하면, 양자화기 (quantizer)가 이를 범용 토큰 (universal tokens)으로 변환합니다. 다시 한번 말씀드리지만, 범용 토큰이 핵심이며, 이에 대해서는 나중에 조금 더 자세히 보게 될 것입니다. 그런 다음 디코더 (decoder)가 이 토큰들을 모터 명령 (motor commands)으로 번역합니다.
하지만 큰 문제가 있습니다. 하나를 다른 하나로 변환하는 법을 배우는 것은 매우 어렵습니다. 우선, 로봇은 인간처럼 작동하지 않는다는 점이 근본적인 도전 과제 중 하나입니다.
예를 들어, 사용자가 몸을 돌리라고 명령하면 실제로 몸을 돌려야 합니다. 좋습니다, 당연하죠. 하지만 정확히 얼마나 빨리 돌려야 할까요? 너무 빨리 180도를 돌려고 하면 안 됩니다. 몸이 무너질 수 있기 때문입니다.
이를 해결하기 위해, 그들은 연구 논문에서 루트 궤적 스프링 모델 (root trajectory spring model)이라고 부르는 것을 제안합니다. 이는 갑작스럽고 빠른 사용자 명령을 완화(dampen)하여 로봇이 부상을 입지 않도록 합니다. 네, 로봇도 부상을 입을 수 있는데, 이건 좀 웃기기도 하네요.
여기 시간에 대한 함수로서 지수 항 (exponential term)이 있습니다. 이게 무엇일까요? 그것은 물리적인 브레이크입니다. 시간이 흐름에 따라 이 항은 0으로 빠르게 수축하며, 전체 수학적 표현식이 부드럽게 감쇠 (decay)하도록 강제합니다. 이는 두 가지 목표를 수행합니다. 첫째, 로봇이 스스로를 다치게 하지 않으며, 둘째, 목표 위치에서 영원히 앞뒤로 진동 (oscillating)하지 않고 안정적으로 자리 잡게 합니다. 멋지네요.
하지만 완화 (dampening)를 너무 과하게 하면, 당연히 아무것도 제대로 할 수 없는 느릿느릿한 달팽이 같은 상태가 되어버리므로, 이를 잘 수행하는 것은 정말 어렵습니다.
잘하셨습니다, 여러분.
이제, 이 모든 과정에는 128개의 GPU와 3일의 학습 (train) 시간이 소요되었습니다. 이는 매우 비용이 많이 드는 작업입니다. 하지만 핵심은 이것입니다. 학습이 완료된 후의 최종 결과물은 매우 가볍기 때문에, 이를 실행하는 데에는 이러한 하드웨어가 전혀 필요하지 않습니다. 사실, 이 영상들에서 보여준 모든 모델은 우리 모두에게 영원히 무료로 제공될 것입니다. 여러분의 스마트폰에서도 아주 쉽게 실행됩니다. 이는 정말 놀라운 일입니다. 인류의 이익을 위한 오픈 리서치 (Open research). 정말 멋지네요, 정말 감사합니다.
이 프로젝트는 제가 매우 아끼는 Zhu 교수와 Jim Fan이 이끌고 있습니다. Jim은 불과 2년 전에 NVIDIA에서 휴머노이드 로봇 (humanoid robots) 연구실을 시작했으며, 그들은 혁신적인 연구 논문들을 끊임없이 쏟아내고 있습니다. 정말 말도 안 되는 수준입니다. 그리고 이 모든 인간의 움직임에 대한 지식을 우리 중 누구라도 사용할 수 있는 아주 작은 AI 컨트롤러 (controller)로 압축해낸 것은 그야말로 경이로운 업적입니다.
결과적으로, 좋은 AI를 학습시키려면 좋은 사고방식을 기계에 코딩 (coding)하는 과정이 필요합니다. 하지만 놀랍게도, 우리 자신 또한 이러한 사고방식으로부터 많은 인생의 조언을 얻을 수 있습니다. 예를 들어, 이 모델은 무질서하고 다양한 입력값 (inputs)의 집합을 일종의 순수하고 추상적인 토큰 (token)으로 압축합니다. 아시다시피, 인생에서 다른 사람들에게 조언을 구할 때, 여러분은 필연적으로 모든 이야기와 그 반대되는 이야기까지 듣게 될 것입니다. 그것 또한 거대한 입력값의 집합이죠. 하지만 그 모든 것들을 나란히 놓고 살펴보려고 노력한다면, 그것들이 종종 근저에 깔린 하나의 진실을 공유하고 있다는 것을 발견하게 될 것입니다. 이 놀라운 프로젝트가 보여주듯, 이 방식은 효과적입니다.
그리고 이 작업이 무엇인가의 끝이 아니라, 단지 시작일 뿐이라는 점에 주목하십시오. 이제 막 태동하는 분야에서의 초기 연구입니다. 앞으로 논문이 두 편 정도 더 나온다면, 이 AI가 정말로 제 빨래를 접고 점심을 요리해 주기 시작하기를 진심으로 바랍니다. 그렇게 된다면 정말 멋질 것입니다. 정말 살기 좋은 시대군요!
그리고 이것은 어떤 독점적인 헛소리가 아니라, 방금 공개된 개방형 지식(open knowledge)이자 개방형(open)입니다. 만약 ~을 듣는 데 관심이 있으시다면
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기