모두가 다음 토큰(Token)을 예측하고 있지만, 어쩌면 모두가 틀렸을지도 모릅니다!

GPT는 다음 단어를 예측하고, Sora는 다음 프레임을 예측하며, 로봇 모델은 다음 동작을 예측합니다.
AI 산업 전체가 "다음 것을 예측하는" 게임을 하고 있습니다.

하지만 Orca 논문은 이렇게 말합니다: "여러분은 방향을 잘못 잡았습니다."

다음 토큰(Token)을 예측하는 것은 본질적으로 통계적 모방(Statistical Imitation)입니다.

당신이 "오늘 날씨"라고 입력하면 모델이 "정말 좋다"라고 출력하는 것은, 모델이 날씨를 이해해서가 아니라 이 조합을 너무 많이 보았기 때문입니다.

다음 프레임을 예측하는 것은 본질적으로 픽셀 보간(Pixel Interpolation)입니다. 비디오 모델이 미래를 "상상"하는 것처럼 보이지만, 실제로는 이미지의 부드러운 전환을 수행하고 있을 뿐입니다.

다음 동작을 예측하는 것은 본질적으로 패턴 매칭(Pattern Matching)입니다.

로봇이 컵을 보고 "잡기"를 출력하는 것은, 로봇이 "잡기"라는 동작의 물리적 의미를 이해해서가 아니라 훈련 데이터에서 유사한 장면을 너무 많이 보았기 때문입니다.

Orca의 접근 방식은 완전히 다릅니다: 다음 상태(State)를 예측하는 것입니다.

상태(State)란 무엇일까요?

표면적인 텍스트, 픽셀, 혹은 동작이 아니라, 그 이면에 숨겨진 물리 세계의 상태를 의미합니다.

공이 공중에 떠 있다면, 상태는 위치, 속도, 중력의 영향, 공기 저항을 포함합니다. 이는 "공이 화면 중앙에 있다"라는 픽셀 정보가 아니라, "이 공은 9.8m/s²의 가속도로 낙하하고 있다"라는 물리적 사실입니다.

상태를 어떻게 학습할까요?

두 가지 방식이 있습니다:

무의식적 학습(Unconscious Learning) — 연속적인 비디오로부터 직접 학습합니다.
아기처럼, 누군가 "공이 떨어지고 있어"라고 말해주지 않아도 많이 보다 보면 자연스럽게 물리 법칙을 이해하게 됩니다.
이 방식은 밀집된 물리적 상태 전환(Physical State Transitions)을 포착합니다. 즉, 프레임 사이의 변화, 모든 물체의 운동 궤적, 모든 충돌의 인과 관계를 학습합니다.
의식적 학습(Conscious Learning): 언어로 묘사된 이벤트와 시각적 질의응답(Visual Question Answering)을 통해 학습합니다.
예를 들어 "공이 땅에 떨어졌다", "문이 열렸다", "고양이가 탁자에서 뛰어내렸다"와 같은 것입니다.
이것들은 의미 있는 의미론적 이벤트(Semantic Events)이며, 연속적인 픽셀 변화가 아니라 이산적(Discrete)이고 인과 관계가 있는 상태 전환입니다.

훈련 규모:

가장 강력한 발견: 사전 훈련(Pre-training) 단계에서 어떠한 동작 라벨(Action Label)도 사용하지 않았지만, 모델이 스스로 행동하는 법을 배웠습니다.

이것이 무엇을 의미할까요?

전통적인 로봇 학습은 "이 상태에서는 이 동작을 수행해야 한다"라고 로봇에게 알려주는 방대한 양의 "동작 라벨"이 필요합니다.

하지만 Orca는 증명했습니다: 물리 세계를 이해하는 것 자체가 행동 능력을 내포하고 있다는 것을 말입니다.

로봇에게 "컵을 잡아"라고 가르칠 필요가 없습니다. 그저 컵을 잡는 비디오를 100만 번 보여주기만 하면 됩니다.

로봇이 "잡기" 동작의 물리적 의미, 즉 손의 모양, 힘의 방향, 물체의 무게, 접촉면의 마찰력을 진정으로 이해하게 되면, 어떻게 잡아야 하는지 자연스럽게 알게 됩니다.

GPT와의 차이점은 무엇일까요?

GPT는 "모방"입니다. "오늘 날씨" 다음에 "정말 좋다"가 오는 것을 너무 많이 보았기에 "정말 좋다"를 출력합니다.
날씨가 무엇인지, "좋다"라는 것이 어떤 느낌인지 알지 못하며, 단지 통계적 매칭을 수행할 뿐입니다.

Orca는 "이해"입니다. "공이 떨어지는" 픽셀 시퀀스를 모방하는 것이 아니라, "중력이 공을 떨어뜨린다"라는 물리 법칙을 이해하는 것입니다.

새로운 장면을 보았을 때, 예를 들어 공이 우주 공간에 떠 있다면, Orca는 "여기는 중력이 없으므로 공이 떨어지지 않을 것이다"라고 추론할 수 있습니다.

이것이 바로 "모방"에서 "이해"로 넘어가는 임계점일 수 있습니다.

AI 업계에서는 대규모 언어 모델(LLM)이 과연 "이해"를 하는 것인지 아니면 "모방"을 하는 것인지에 대해 계속 논쟁해 왔습니다.

대부분은 모방이라고 생각합니다. GPT는 신체가 없고 물리적 경험이 없는데, 어떻게 물리 세계를 진정으로 "이해"할 수 있겠느냐는 논리입니다.

하지만 Orca는 하나의 가능성을 제시했습니다: 대규모 비디오 학습을 통해 AI가 물리 세계에 대한 "내재적 표현(Internal Representation)"을 구축할 수 있다는 것입니다.

표면적인 픽셀 변화를 모방하는 것이 아니라, 배후의 상태 전환을 이해하는 것입니다.

이 내재적 표현이 충분히 강력해지면, 언어 생성(무슨 일이 일어났는지 묘사), 이미지 예측(다음 프레임이 어떤 모습일지), 그리고 로봇 행동(다음에 무엇을 해야 할지)을 동시에 지원할 수 있습니다.

하나의 모델이 언어, 시각, 그리고 행동을 동시에 이해하는 것입니다.

이것이 AGI(인공 일반 지능)로 향하는 또 다른 길일지도 모릅니다: 더 큰 언어 모델이 아니라, 더 나은 세계 모델(World Model)을 만드는 것 말입니다.

논문 주소👇🏻

Insights