로봇 파운데이션 모델 (Robotic Foundation Models): Burgard 교수가 말하는 AI 로보틱스

로봇 파운데이션 모델 (Robotic Foundation Models)은 언어, 이미지, 촉각을 통해 로봇을 제어하는 멀티모달 (multimodal) AI 모델입니다. Leonard Schmedding과의 인터뷰에서 Wolfram Burgard 교수는 이 기술에 대해 이야기합니다. 그는 왜 이 기술이 로보틱스의 다음 돌파구를 의미하는지 설명합니다. 이 로보틱스 개척자는 클래식한 언어 모델 (Language Models)이 실제 로봇에게 수행할 수 없는 것이 무엇인지 분류합니다.

확률적 로보틱스 (Probabilistic Robotics): 자율주행 자동차의 토대

Wolfram Burgard는 확률적 로보틱스 (Probabilistic Robotics)의 공동 창립자로 간주됩니다. 이 방법론은 통계학을 통해 로봇의 위치를 추정합니다. 그는 이미 1997년에 로봇 Rhino를 본(Bonn)의 독일 박물관(Deutsches Museum)으로 보냈습니다. 1년 후에는 워싱턴 스미소니언(Smithsonian)에서 Minerva가 뒤를 이었습니다.

이 로봇들은 방문객들을 전시회 내에서 자율적으로 안내했습니다. 이들은 경로를 계획하고, 전시물 앞에서 멈추며, 내용을 설명했습니다. 돌파구는 원격 제어 없이 견고한 내비게이션 (Navigation)을 구현한 데 있었습니다. Minerva는 심지어 스스로 지도를 구축했으며, 동시에 그 안에서 자신의 위치를 파악했습니다.

Burgard의 박사 과정 학생은 이후 이 방법론을 스탠퍼드(Stanford)의 Sebastian Thrun에게 전달했습니다. 그들은 로봇 자동차 Stanley와 함께 DARPA Grand Challenge에서 공동으로 우승했습니다. Larry Page는 그 잠재력을 알아차렸고, Google X는 이를 통해 Waymo를 시작했습니다. 오늘날 거의 모든 로보택시 (Robotaxi)에는 확률적 알고리즘 (probabilistic algorithm)이 탑재되어 있습니다. Thrun이 이 여정을 어떻게 회상하는지는 우리의 Sebastian Thrun과의 대화를 통해 확인할 수 있습니다.

로봇 파운데이션 모델 (Robotic Foundation Models): 왜 로봇에게 LLM 이상의 것이 필요한가

언어 모델 (Language Model)은 텍스트로부터 텍스트를 생성합니다. Burgard의 표현을 빌리자면, 그것은 그저 재잘거리는 것입니다. 하지만 로봇은 물리적 세계를 변화시켜야 합니다. 이를 위해 로봇은 체화, 즉 전문 용어로 임보디먼트 (Embodiment)가 필요합니다.

로봇 파운데이션 모델 (Robotic Foundation Models)은 이미지, 언어, 행동을 하나의 모델로 결합합니다. 전문가들은 이를 비전-언어-행동 모델 (Vision Language Action Models), 줄여서 VLA 모델이라고 부릅니다. 이러한 시스템은 '탁자 위의 꽃병을 집어라'와 같은 명령을 이해합니다. 이들은 언어를 움직임으로 직접 번역합니다.

하지만 대부분의 모델에는 촉각 (Sense of Touch)이 결여되어 있습니다. 촉각 (Sense of Touch)은 로봇이 얼마나 세게 움켜쥘지를 결정합니다. Burgard 교수는 꽃이 꽂힌 꽃병의 예를 듭니다. 사람은 꽃이 아닌 화분을 잡습니다. 그는 꽃병이 손에서 미끄러지는지 즉각적으로 느낍니다.

LLM (대규모 언어 모델)은 이러한 지식을 설명할 수는 있습니다. 하지만 필요한 힘 (Force)을 알지는 못합니다. 바로 이러한 센서 데이터 (Sensor data)가 오늘날의 모델들에 부족합니다. 그래서 연구 팀들은 힘 (Force) 및 촉각 (Touch) 센서를 갖춘 모델을 연구하고 있습니다.

병목 현상의 원인은 로봇 데이터

로봇 파운데이션 모델 (Robotic Foundation Models)의 가장 큰 병목 현상 (Bottleneck)은 데이터입니다. 로봇 데이터는 인터넷에서 긁어올 수 없습니다. 기업들은 움직임 데이터를 수집하기 위해 원격 제어 로봇을 사용합니다. 하지만 이 방법은 확장성 (Scalability)이 낮습니다.

Burgard 교수는 고립된 데이터 사일로 (Data silos) 대신 개방형 생태계를 원합니다. 그의 모델은 교통 데이터를 공동으로 제공하는 스마트폰과 같습니다. 그렇게 하면 모든 로봇이 새로운 기능이 추가될 때마다 그 혜택을 누릴 수 있습니다. TU München (뮌헨 공과대학교) 또한 이를 위해 자체적인 RoboGym을 구축하고 있습니다. 이것이 어떻게 가능한지는 Achim Lilienthal 교수와의 대화에서 확인할 수 있습니다.

시뮬레이션 (Simulation)은 데이터 격차를 추가적으로 메워야 합니다. 시각적으로 시뮬레이터는 이미 매우 뛰어납니다. 하지만 마찰 (Friction), 충돌 (Collision), 그리고 촉각 (Sense of touch) 측면에서는 심-투-리얼 갭 (Sim-to-Real-Gap)이 존재합니다. Burgard 교수는 이를 날카롭게 표현합니다. 완벽한 시뮬레이터가 있다면 이미 절반의 해결책이 마련된 것이나 다름없다고 말입니다.

Nvidia는 시뮬레이션 환경 분야의 시장 선두 주자 중 하나입니다. 그럼에도 불구하고 시뮬레이션은 여전히 불완전합니다. 따라서 Burgard 교수는 공동 노력의 가치를 강조합니다. 오직 협력을 통해서만 가장 빠른 진보를 이룰 수 있기 때문입니다.

휴머노이드 로봇: 가정보다는 산업 현장

Burgard 교수는 휴머노이드 로봇이 가정에서 쓰이기까지는 아직 갈 길이 멀다고 봅니다. 액체와 전자 제품은 서로 상성이 좋지 않습니다. 산업 환경은 훨씬 더 통제하기 쉽습니다. 그는 그곳에서 첫 번째 실제 적용이 이루어질 것으로 예상합니다.

중국은 휴머노이드 로봇 (Humanoid Robots) 분야를 특히 강력하게 추진하고 있습니다. 역피라미드형 인구 구조로 인해 그곳의 노동력 부족 문제는 더욱 심화되고 있습니다. 이미 수백 개의 중국 기업들이 휴머노이드를 개발하고 있습니다. Burgard는 독일의 사례로 특히 Neura Robotics를 언급합니다.

Burgard는 로봇의 메커니즘 (Mechanik) 문제는 해결 가능한 것으로 보고 있습니다. 하프 마라톤을 달리는 로봇은 이미 강력한 하드웨어를 보여주고 있습니다. 진짜 장애물은 체화 (Embodiment)를 위한 AI입니다. 그는 바로 이 지점에 유럽의 기회가 있다고 봅니다.

Argmax 문제: 왜 불확실성이 중요한가

Burgard는 이른바 Argmax 문제에 대해 경고합니다. 많은 AI 시스템은 단지 가장 확률이 높은 답변만을 제공합니다. 하지만 그 답변이 얼마나 확실한지는 말해주지 않습니다. 챗봇의 경우에는 이것이 무해합니다.

하지만 로봇에게 불확실성의 결여는 위험합니다. 로봇은 자신의 추정치에 따라 물리적으로 행동하기 때문입니다. 자율주행 자동차는 도로 위의 비닐봉지를 평가해야 합니다. 통계적 수치는 이러한 리스크를 올바르게 저울질하는 데 도움을 줍니다. 바로 이 점이 확률론적 로보틱스 (Probabilistic Robotics)를 오늘날까지 대체 불가능하게 만드는 요소입니다.

AI 파운데이션 모델에서의 유럽의 뒤처짐

검색 엔진과 클라우드 분야에서 유럽은 흐름을 놓쳤습니다. Burgard는 생성형 AI (Generative AI)에서도 동일한 위험을 보고 있습니다. 반도체 분야에서도 유럽 대륙은 뒤처져 있습니다. 타국에 대한 이러한 의존도는 리스크가 되고 있습니다.

이에 대한 대응으로 Burgard는 바이에른 AI 파운데이션 모델 이니셔티브 (Bavarian AI Foundation Model Initiative)를 이끌고 있습니다. 바이에른주는 자체 모델에 5,450만 유로를 투자합니다. 최종적으로는 2,000개 이상의 GPU가 준비될 예정입니다. 두 가지 중점 분야는 의료와 로보틱스입니다.

로보틱스를 위해 팀은 멀티모달 모델 (Multimodal Model)을 훈련시키고 있습니다. 약 100대의 로봇이 이미지, 언어, 힘, 그리고 촉각 데이터를 제공합니다. Burgard는 더 많은 컴퓨팅 파워와 교육에서의 더 많은 AI 도입을 요구합니다. 기업들을 향한 그의 호소는 명확합니다. AI를 테스트하고 실수를 허용하는 기업이 우위를 점할 것입니다.

결론: 차세대 파동으로서의 로봇 파운데이션 모델 (Robotic Foundation Models)

로봇 파운데이션 모델 (Robotic Foundation Models)은 언어, 인지 (Perception), 그리고 행동 (Action)을 결합합니다. 이는 로봇을 전례 없는 수준으로 유연하게 만들 수 있습니다. 가장 큰 레버리지 (Leverage)는 여전히 공동으로 수집된 로봇 데이터입니다. 우리 Everlast AI는 기업들이 지금 바로 첫 번째 애플리케이션 (Applications)을 테스트해 볼 것을 권장합니다.

유럽은 로봇 AI 분야에서 여전히 실질적인 기회를 가지고 있습니다. 이곳의 연구와 메카닉 (Mechanics)은 강력하게 구축되어 있습니다. 바이에른(Bayern)의 사례와 같은 이니셔티브 (Initiatives)들이 필요한 기반을 조성하고 있습니다. 로봇 파운데이션 모델 (Robotic Foundation Models)이 차세대 자동화의 흐름을 누가 주도할지를 결정할 것입니다.

자주 묻는 질문 (FAQ)

로봇 파운데이션 모델 (Robotic Foundation Models)이란 무엇인가요?

로봇 파운데이션 모델 (Robotic Foundation Models)은 로봇을 위한 멀티모달 (Multimodal) AI 모델입니다. 이 모델들은 언어, 이미지, 그리고 종종 힘 (Force)이나 촉각 데이터 (Tactile data)를 처리합니다. 순수한 언어 모델 (Language Model)과 달리, 이들은 실제 움직임을 제어합니다. 그 목표는 인카네이션/체화 (Embodiment), 즉 세상과의 물리적 상호작용입니다. 이를 통해 로봇은 언어를 통해 전달받은 과업을 수행합니다.

로봇 파운데이션 모델 (Robotic Foundation Model)은 LLM과 어떻게 다른가요?

LLM은 텍스트로부터 텍스트만을 생성합니다. 지식을 설명할 뿐, 세상 속에서 행동하지는 않습니다. 로봇 파운데이션 모델 (Robotic Foundation Model)은 인지 (Perception)와 행동 (Action)을 결합합니다. 이 모델은 힘, 움직임, 그리고 이상적인 경우 촉각 (Sense of touch)까지 이해합니다. 이를 통해 로봇은 실제 객체를 잡고 조작할 수 있습니다. 바로 이러한 체화 (Embodiment)가 전통적인 언어 모델에는 결여되어 있는 부분입니다.

로봇 파운데이션 모델 (Robotic Foundation Models)의 가장 큰 병목 현상 (Bottleneck)은 무엇인가요?

가장 큰 병목 현상은 로봇 데이터입니다. 이러한 데이터는 인터넷에서 수집할 수 없습니다. 기업들은 움직임을 기록하기 위해 원격 제어 로봇을 사용합니다. 이는 확장성 (Scaling)이 느리고 많은 비용이 소요됩니다. Burgard 교수는 개방형 데이터 생태계 (Data ecosystem)를 옹호합니다. 뮌헨 공과대학교 (TU München)의 RoboGym과 같은 훈련 센터들이 이 격차를 메워야 합니다.

휴머노이드 로봇 (Humanoid Robots)은 어디에 가장 먼저 투입될까요?

Burgard 교수는 휴머노이드 로봇이 산업 현장에 가장 먼저 투입될 것으로 예상합니다. 산업 현장은 환경이 통제되어 있고 계획이 가능하기 때문입니다. 액체와 전자 기기가 충돌하는 가정 환경은 여전히 어려운 과제로 남아 있습니다. 중국은 고령화되는 인구 문제로 인해 휴머노이드 로봇에 특히 강력하게 집중하고 있습니다. 유럽에서는 Burgard 교수가 특히 Neura Robotics를 강력한 경쟁자로 언급합니다.

왜 유럽은 AI 파운데이션 모델 (AI Foundation Models)에서 뒤처지고 있는가?

유럽은 이미 검색 엔진과 클라우드 인프라(Cloud Infrastructure) 경쟁에서 기회를 놓쳤습니다. 생성형 AI (Generative AI)와 반도체 분야에서도 동일한 의존성 문제가 발생할 위험이 있습니다. Burgard 교수는 이를 큰 경제적 리스크로 보고 있습니다. 이에 대응하기 위해 5,450만 유로 규모의 바이에른 AI 파운데이션 모델 이니셔티브 (Bavarian AI Foundation Model Initiative)가 추진되고 있습니다. 이 이니셔티브는 의료 및 로보틱스 분야의 자체 모델을 위한 컴퓨팅 파워 (Computing Power)를 구축하는 것을 목표로 합니다.