세르게이 레빈 인터뷰 — 로봇 파운데이션 모델 (Physical Intelligence)

요약

Physical Intelligence의 공동 창업자 세르게이 레빈이 로봇 파운데이션 모델의 비전과 기술적 도전 과제를 설명합니다. VLM에 행동 전문가를 결합한 π0 모델 구조와 데이터 플라이휠을 통한 범용 로봇 구현 전략을 다룹니다.

핵심 포인트

범용 로봇 파운데이션 모델을 목표로 하는 π0 모델 구조
VLM과 행동 전문가를 결합하여 정밀 제어 구현
데이터 플라이휠을 통한 점진적 작업 범위 확장
추론 속도, 컨텍스트 길이, 모델 크기의 3중 딜레마 해결 필요

드와케시 팟캐스트. 세르게이 레빈(Physical Intelligence 공동창업자·UC버클리 교수, "long-horizon 전문가"로 언급된 그 사람)의 깊은 대담이에요.

━━━━
현재 위치

· 목표: 어떤 로봇이든 어떤 작업이든 시키는 범용 로봇 파운데이션 모델
· 지금은 기본기 단계 — 빨래 개기, 새 집 부엌 청소 등 됨. 단 "아주 초기 시작점"
· 진짜 목표는 "티셔츠 개기"가 아니라 "6개월~1년짜리 긴 작업"을 맡기는 것(저녁 6시 식사, 토요일 빨래, 매주 월요일 체크인 같은 한 문장 프롬프트로 집안일 전체)

━━━━
타임라인 — 핵심은 "플라이휠 시작점"

· "언제 완성되나"가 아니라 "데이터 플라이휠이 언제 도나"가 중요
· 쓸 만한 게 세상에 나오는 건 1~2년, 집을 통째로 맡길 수준은 중앙값 5년(한 자릿수 연)
· 단 LLM처럼 "스위치 켜지듯" 한 번에 안 됨 → 스코프(범위)가 점진 확장 (커피 만들기 → 커피숍 운영)

━━━━
왜 자율주행(10년+ 걸림)과 다른가

· 2025년은 2009년보다 인식(perception) 기술이 훨씬 좋음(일반화 가능)
· 운전은 실수=대형사고라 학습 어려움, 반면 설거지는 실수하고 고치며 배울 수 있음(5살에게 운전은 못 시켜도 설거지는 시킴)
· 상식(common sense): LLM/VLM이 "미끄럼 주의 표지 있으면 어떻게 될까"에 합리적 추측 — 2009년 차는 불가능했음

━━━━
왜 지금인가 (구글·메타도 했는데)

· 그들도 진전 많았음 — PI는 그 위에 섰음
· 차이는 "과학 실험"이 아니라 "아폴로 프로그램급 산업 규모 집중" — 논문·연구가 목적이 아니라 실물 로봇·데이터에 집중

━━━━
모델 구조 (π0)

· 비전-언어 모델(VLM)에 "행동 전문가(action expert)"를 붙인 것 — 작은 시각피질+운동피질
· 구글 오픈소스 Gemma 모델 위에 action expert 추가 — "로봇과 LLM이 별개 분야가 아니라 문자 그대로 같은 모델·같은 가중치"
· 행동은 이산 토큰이 아니라 flow matching·diffusion(연속·정밀 제어)
· 핵심 이점: 사전지식(prior knowledge) 활용 능력

━━━━
영상모델은 왜 LLM만큼 안 되나

· 텍스트는 이미 인간이 중요한 것만 추상화해둠. 영상은 "압축된 픽셀"이라 뭐가 중요한지 모름(구름 분자까지 예측하려면 끝없음)
· 좋은 소식: 로봇은 "목적"이 있어서 그 목적이 시야를 집중시킴(인간도 목표와 무관한 건 눈앞에 있어도 안 봄)
· 테니스 비유: 스포츠 1년 보고 "이제 테니스 쳐"는 멍청, "테니스 칠 거야" 알고 보면 뭘 봐야 할지 앎

━━━━
창발 능력 = 조합적 일반화

· LLM이 국제음성기호로 레시피 쓰는 것처럼, 본 것들을 새 방식으로 조합
· PI 로봇도 우연히 발견: 빨래 2장 집으면 하나 도로 던지기, 쇼핑백 쓰러지면 세우기 — 가르친 적 없는 행동
· 1초 컨텍스트로 1분짜리 작업 수행(반바지 뒤집힌 것도 먼저 뒤집고 개킴) — 모라벡 역설(쉬운 게 어렵고 어려운 게 쉽다)

━━━━
3중 딜레마 (추론 시 동시에 키워야)

· 추론 속도(인간 24fps)+컨텍스트 길이(몇 시간)+모델 크기(인간 뇌 수조 파라미터) — 현재 100ms·1초·20억 파라미터로 인간보다 수십~수백배 작음
· 해법 방향: 컨텍스트의 올바른 표현(언어적/공간적 모달리티 분리), 뇌처럼 병렬 처리(빠른 반응+느린 사고 동시), 일부 사고를 외부(클라우드) 위탁

━━━━
시뮬레이션·RL

· 시뮬레이션이 로봇엔 잘 안 되는 이유: 모델이 "이 작업을 풀어야 한다"는 목적을 모름(파일럿은 목적이 명확)
· RL 아직 못 하는 이유: 사전지식 필요 — LLM이 next-token으로 기초 닦고 RL 가듯, 로봇도 지도학습으로 기초부터
· 핵심은 시뮬레이션을 잘하는 게 아니라 "반사실(counterfactual)을 답하는 능력"

━━━━
하드웨어·비용

· 로봇팔 가격 급락: 2014년 PR2 40만 달러 → 버클리 3만 달러 → 지금 PI 팔 3천 달러, 더 싸질 것
· AI가 똑똑해질수록 하드웨어 정밀도 요구↓(값싼 시각 피드백으로 보완)
· "로봇=기계 인간"이 아니라 "불도저·자동차에 가까움" — 100피트도, 초소형도 가능. 최소 패키지를 찾는 게 과제
· 로봇계의 엔비디아는 아직 없음, 이질적(heterogeneous) 로봇 세상을 희망

━━━━
중국·지정학 (질문자의 반복 우려)

· "공급망(태양광·로봇팔) 대부분 중국산인데 왜 중국이 디폴트로 안 이기나"
· 레빈: 자동화는 고학력·고생산성 경제와 부합 → 미국엔 그 최종상태로 갈 강한 인센티브. 단 균형 잡힌 로봇 생태계(SW+HW 둘 다 투자)와 장기 비전 필요
· 로봇 생산 자체가 물리적 일이라 로봇이 로봇 생산을 도움(순환, 부트스트랩 필요) — 컴퓨터·폰과 달리 자기증식적

https://t.co/eEcN7eATTe

AI 자동 생성 콘텐츠

원문 바로가기

세르게이 레빈 인터뷰 — 로봇 파운데이션 모델 (Physical Intelligence)

요약

핵심 포인트

댓글