형언할 수 없는 지능 -- RL ASI

https://www.youtube.com/watch?v=VD9zEKQEJxo
이 영상은 인공지능 강화학습 (RL)의 아버지이자 Turing Award 수상자인 Richard Sutton이 2026년 5월에 공동 발표한, 단 7페이지 분량에 알고리즘도 벤치마크 점수도 없는 철학적 입장의 논문을 심도 있게 분석합니다. 이 논문은 **'행동 인지 AI' (Enactive Artificial Intelligence, 이하 Enactive AI)**라는 개념을 제시했으며, 기술계와 자본 시장에 거대한 파장을 일으켰습니다 (심지어 Sequoia, NVIDIA, Google이 공동으로 11억 달러를 투자하여 신규 회사를 설립하게 만들었습니다).

영상은 핵심 개념, 철학적 맥락, 이론적 내적 모순, 인지 과학적 의문, 그리고 산업계의 세 가지 베팅이라는 다섯 가지 차원에서 영상의 모든 핵심 내용을 매우 상세하게 복기합니다:

1. '행동 인지 AI' (Enactive AI)란 무엇인가?

영상은 인터넷상의 많은 곳에서 Enactive (행동 인지/생성 인지)를 Generative (GPT, Sora와 같은 생성형 AI)와 혼동하고 있지만, 두 가지의 근본적인 로직은 정반대라고 강조합니다 [00:50]:

생성형 AI (Generative AI): 핵심은 계승(continuation)과 예측입니다. 기존의 이미지나 텍스트를 통해 다음 프레임이나 다음 단어가 어떤 모습일지를 수동적으로 예측합니다 [01:07].
행동 인지 AI (Enactive AI): 핵심은 상호작용 속에서 인지를 생성(enact)하는 것입니다. 인지는 뇌가 신호를 수동적으로 받아들여 정적인 세계 모델을 구축하는 것이 아니라, "당신이 움직일 때 비로소 세계가 당신에게 나타나는 것"입니다 [01:47]. > 예시: 사람이 컵을 잡으려 할 때, 눈이 먼저 정적인 사진을 찍어 뇌가 거리와 각도를 계산하는 것이 아니라 [01:53], 손을 앞으로 뻗는 과정에서 각도와 빛의 실시간 동적 변화에 따라 컵의 형태와 잡을 수 있는 가능성(graspability)이 동작 속에서 조금씩 "자라나게" 됩니다 [01:59]. 지각(Perception)과 행동(Action)은 단단히 결합되어 있어 분리할 수 없습니다.

이 이론은 인지 과학의 **자기생성 (Autopoiesis) 및 자율성 (Autonomy)**에서 유래되었습니다 [02:21]. 이는 에이전트(Agent)가 생명체처럼 스스로를 유지하고 조직해야 하며, 외부의 명령 입력을 기다리는 기계가 아니라 내재적인 생존 요구에 의해 지각을 형성해야 한다고 주장합니다 [02:24].

2. Sutton은 왜 이 철학 논문을 발표했는가?

Sutton의 행동은 일시적인 충동이 아닙니다. 이는 현재의 '거대 모델 경로 (Large Model Route)'에 맞서 그가 내놓은 마지막 철학적 패입니다:

2019년 《고통스러운 교훈 (The Bitter Lesson)》: 인간이 직접 작성한 규칙은 컴퓨팅 파워를 쌓아 기계가 스스로 학습하게 만드는 범용적인 방법을 이길 수 없다고 주장했습니다 [02:47].
2024년 《거대 세계 가설 (The World Model Hypothesis)》: 실제 세계는 정적인 내부 모델보다 훨씬 복잡하며, 에이전트는 실행 과정에서 실시간으로 학습해야 합니다 [02:59].
2025년 《경험의 시대 (The Age of Experience)》: 인간 데이터는 한정되어 있으므로, AI는 스스로 자신의 경험을 생성하며 성장해야 합니다 [03:12].
2025년 9월: AI 산업 전체가 길을 잘못 들었으며, 거대 모델에 데이터를 쏟아부어 초지능 (ASI)에 도달하려는 시도는 막다른 길이라고 직격했습니다 [03:19].

이 논문은 마지막 불꽃을 더했습니다: 이전의 논증들이 모두 연산 능력(Compute), 데이터, 그리고 복잡도에 관한 "기계적인 계산"이었다면 [03:25], 이번에는 그가 처음으로 강화학습 (RL) 및 인지 과학 (행동 인지)을 결합하여 존재론적 차원에서 다음과 같이 증명했습니다: 대규모 언어 모델 (LLM)의 길은 통하지 않으며, 세상을 인식한다는 행위 자체는 오직 행동과 상호작용의 경험을 통해서만 발생할 수 있다는 것입니다 [03:39].

이를 위해, 2026년 초 논문 공동 저자는 인간의 데이터가 전혀 필요하지 않고 스스로 학습하는 AI를 만들겠다고 선언하며 Ineffable Intelligence라는 회사를 설립했으며, Sequoia, NVIDIA, Google로부터 11억 달러라는 거액의 투자(기업 가치 51억 달러)를 직접 유치했습니다 [03:55].

3. 논문에 숨겨진 두 가지 치명적인 논리적 "부메랑"

영상의 흐름이 바뀌며, Sutton이 빌려온 이 철학적 토대 안에 그 자신을 타격할 두 개의 "거대한 기둥"이 매립되어 있음을 지적합니다.

기둥 1: Sutton의 "보상 가설"을 타격함 (자기모순) [04:35]

강화학습 (RL)의 공언된 교리: 보상 가설 (Reward Hypothesis), 즉 모든 목표와 의도는 "외부에서 주어진 스칼라 점수의 최대화"로 작성될 수 있다는 것입니다 [04:53]. David Silver는 심지어 "보상만 있으면 충분하다"라고 외치기도 했습니다 [05:13].
행동 인지 철학의 교리: 자율성 (Autonomy), 즉 무엇이 좋고 나쁜지, 성공과 실패인지에 대한 기준은 에이전트가 언제든 무너질 수 있는 "물리적 조직과 생존 위기"로부터 자발적으로 자라나야 하며, 외부 권위에 의해 조종되어서는 안 된다는 것입니다 [05:27].
균열: 표준적인 강화학습의 보상 함수 (Reward Function)는 인간 설계자가 코드로 강제로 주입한 것(타율)입니다 [05:55]. 반면 생물학적 판단은 엔트로피 증가를 견뎌내고 구조의 붕괴를 막기 위해 존재합니다 (자율) [06:11]. 논문의 저자들 또한 강화학습의 평가 기준이 여전히 외부 보상에 의해 정의된다는 점을 스스로 인정하고 있습니다 [06:38].
내적 동기 기제가 구원할 수 있는가? 예를 들어 호기심 기반 동기나 지식 탐구 동기 같은 것들 말입니다. 영상에서는 불가능하다고 판단하는데, 그 이유는 "예측 오차 최적화"와 같은 요약된 최적화 목표 역시 여전히 인간이 아키텍처 계층에서 엄격하게 규정해 놓은 것이지, 에이전트가 생존에 대한 우려로 인해 내는 자발적인 요구가 아니기 때문입니다. 진정한 생존의 위협이 없다면, 진정한 의미의 생성도 없습니다 [07:12].

기둥 2: Sutton 자신의 "Bitter Lesson"을 타격함 [07:49]

Sutton은 과거에 다음과 같이 비판했습니다: 연구자들은 항상 인간이 생각하는 구조(예: 구문 트리(syntax tree), 수동 특징 검출기(hand-crafted feature detector))를 AI 아키텍처에 억지로 밀어넣으려 하는데, 이는 장기적으로 반드시 압도당할 수밖에 없다고 말입니다 oxed{08:13}.
하지만 Enactiveness는 인지 조직에 대해 매우 세밀한 요구를 하는 이론입니다 (지각과 행동의 강력한 결합을 요구하고, 세계 내부 모델의 부재를 요구하며, 생태 심리학(ecological psychology)과 어포던스(affordance)를 아키텍처에 용접하듯 집어넣을 것을 요구합니다) oxed{08:48}.
대규모 언어 모델(LLM) 주류 커뮤니티는 이를 철학적 퇴보라고 간주합니다: 신경망이 행동 인지 법칙을 따르도록 강제하는 것은 과거에 수동으로 규칙을 집어넣던 것과 본질적으로 차이가 없으며, 이는 그가 직접 세운 핵심 전제인 "계산은 최적의 표현(optimal representation)을 자유롭게 발견해야 한다"를 정면으로 위반하는 것이기 때문입니다 oxed{09:25}.
Sutton을 옹호하는 주장: 그가 규정한 것은 학습의 위상(topology, 원형 구조/스캐폴딩)이지 구체적인 사고 내용이 아니며, AI가 거대한 몸집을 통해 모든 것을 다시 배우게 하려는 것이므로 위반이 아니라는 논리입니다 oxed{10:01}. 하지만 이는 여전히 의구심을 잠재우지 못하고 있습니다.

4. 인지 과학의 30년 된 해묵은 논쟁

AI를 논하지 않더라도, 이 철학 체계는 인간의 인지를 설명할 때 스스로 30년 동안 해결하지 못한 두 가지 난제(상향 확장 문제와 결합 오류)를 안고 있습니다 oxed{11:21}:

상향 확장 문제 (Scaling-up Problem) oxed{11:24}: 행동 인지 학파는 "1차적 감각 운동(sensorimotor)"(예: 탁구공이 날아올 때 본능적으로 깎아 치는 것, 아기의 걷기)을 설명하는 데는 매우 능숙합니다 oxed{11:27}. 이는 모두 연속적인 신체적 물리 결합에 의존하기 때문입니다. 하지만 인간의 지능에는 "오프라인적이고 추상적인" 표현 중심(representation-hungry) 작업이 대량으로 존재합니다 oxed{11:51}. 예를 들어 미적분을 계산하거나, 이전에 아무도 말한 적 없는 문장을 쓰거나, 내년 여름 휴가를 계획하는 것과 같은 일들입니다 oxed{12:08}. 다음 단계에서 만질 수 있거나 결합할 수 있는 실체가 없을 때, 오직 뇌 속의 "기호적 그림자(symbolic shadows)"에 의존해 계산해야 합니다. 행동 인지 학파는 지금까지 이러한 고차원적인 오프라인 인지를 설명하지 못하고 있습니다 oxed{12:20}.
**결합 오류 (Coupling-Constitution Fallacy) oxed{13:20}

VLM/VMA (Vision-Language-Action Models, 시각-언어-행동 모델): NVIDIA의 GR00T, Google의 Gemini Robotics 등이 이에 해당합니다. 2026년 탑티어 컨퍼런스인 ICLR에 제출된 이러한 모델의 논문 수는 전년도 9편에서 18배 폭증한 164편에 달했습니다 oxed{15:44}.
어떻게 구현되었는가? 이는 결코 자가 생성 (Self-generation)에 의존하거나, 실행 시간 (Runtime)에 실시간으로 배우며 수행하는 방식이 아닙니다. 그 대신, **방대한 양의 오프라인 데이터, 즉 실제 사람이 원격 제어로 조작한 물리적 실제 데이터 (사람이 한 프레임씩 라벨링한 수천 시간 분량의 데이터)를 확산 트랜스포머 (Diffusion Transformer)에 밀어 넣어 강제로 매핑해낸 결과입니다 oxed{16:15}.
Sutton의 엄격한 기준에 따르면, 이러한 VMA 모델들은 오늘날까지도 "신체에서 분리된 패턴 인식 (Pattern Recognition)"에 불과하며, 진정한 의미의 거대 신체 (Embodied Intelligence)라고 볼 수 없습니다. 하지만 현실은 아이러니합니다. **바로 이 "거대 신체가 아니라고 여겨지는" 것들이 이미 공장에서 옷을 접고, 물류를 분류하며, 선반 사이를 누비고 있습니다 oxed{16:53}.
이 칼은 양날의 검이기도 합니다. VMA의 성공 전제 조건은 역설적으로 실제 인간의 신체가 세상과 상호작용하며 남긴 물리적 데이터가 필요하다는 점입니다. 이는 Sutton이 말한 "반드시 신체적 상호작용 경험 데이터가 있어야 한다"는 주장이 옳았음을 증명하지만, 단지 Sutton이 덧붙인 실시간 자가 생성 철학이라는 껍데기는 필요하지 않을 뿐입니다 oxed{17:47}.

영상에서는 이것이 역사적으로 한 차례 반복되었음을 언급합니다. 30년 전 Rodney Brooks는 "표상 없는 지능 (Intelligence without Representation)" (Subsumption Architecture, 포섭 구조)을 제안하며, 지능이 신체의 물리적 역학 속에 박혀 있어야 한다고 주장했습니다. 그러나 이는 2000년대에 확장성 (Scalability) 문제로 인해 머신러닝 (Machine Learning)에 의해 완전히 압도당했습니다 oxed{18:23}. 오늘날 Sutton은 신경망 (Neural Network)이 가진 확장성을 빌려, 이 신체를 다시 불러오려 하고 있습니다 oxed{19:27}.

6. 결론: 2020년대 후반의 세 가지 도박판

영상은 마지막으로 요약합니다. AGI의 미래 경로를 둘러싼 이 논쟁은 결국 기술계의 세 학파가 각자의 주장을 극단적으로 밀어붙이는 상업적 도박으로 변모했으며, 승부가 갈릴 연도를 다음과 같이 제시했습니다 oxed{21:23}:

도박 테이블 파벌	핵심 베팅 관점	실패의 징후 / 판가름 나는 연도
첫 번째 테이블: Sutton & Silver 파 <br><br> (행동 인지 AI 파) oxed{21:33}	정적 데이터 스케일링(Scaling)은 막다른 길이다. 초지능(ASI)은 에이전트가 복잡한 실제 세계에서 직접 경험하고 런타임 지속 학습 (Runtime Continuous Learning)을 통해 구조를 반복하며 스스로 유지해야 한다 oxed{21:36}	2028년 <br><br> 만약 이들이 옳다면, 그때 기존의 거대 모델(LLM)과 VMA는 완전히 새로운 물리적 환경에서 갈피를 잡지 못하고 적합성 천장(Fitness Ceiling)에 부딪힐 것이다. 반면 이들의 경로를 따르는 에이전트는 압도적인 제로샷(Zero-shot) 및 퓨샷(Few-shot) 적응 능력을 보여줄 것이다 oxed{22:01}
두 번째 테이블: OpenAI & 순수 디지털 파 <br><br> (거대 모델/생성 인지 파) oxed{22:21}	행동 인지에 대한 비판은 역사적 근시안이다. 거대 모델은 이미 세계 지식을 인코딩했다. 물리적 경험은 근본적인 토대가 아니라 단지 외적인 미세 조정(Fine-tuning)의 층위일 뿐이다. 순수 연산 능력(Compute) + 합성 생체 모방 데이터(Synthetic Bio-mimetic Data)만으로도 상호작용과 고난도 물리 과제를 해결할 수 있다 oxed{22:26}	2028년 <br><br> 만약 이들이 옳다면, 다음 토큰(Next Token) 예측을 기반으로 훈련된 순수 디지털 AI가 고도의 신체 조작은 물론 새로운 수학적 증명까지 완벽하게 해결할 것이며, 신체적 근거(Embodiment)와 생물학적 자기 생성 이론은 완전히 거짓으로 판명될 것이다 oxed{22:42}
세 번째 테이블: NVIDIA 등 엔지니어링 파 <br><br> (로봇/하드웨어 구현 파) oxed{23:02}	물리적 신체의 필요성은 인정하지만, 내재적 자율성이나 지속 학습은 완전히 부정한다. 물리적 지능은 또 다른 통계적 문제일 뿐이며, 확산 트랜스포머 (Diffusion Transformer) + 방대한 오프라인 데이터로 해결 가능하다 oxed{23:07}	2030년 <br><br> 만약 엔지니어링 파가 옳다면, 비정형 가정이나 동적 창고에 성공적으로 배치된 로봇들은 완전히 정적인, 사후 훈련된 모델 (Post-trained Model) 위에서 작동할 것이다. 로컬의 자기 생성 및 실시간 생물학적 요구 사항은 클라우드 중심의 중앙 집중식 업데이트에 의해 완전히 대체될 것이다 oxed{23:24}

최종 결론:
이 논문은 매우 선견지명 있는 경고이자, 동시에 자기모순적인 청사진이다 oxed{24:27}. 이 논문은 신체 인지(Embodied Cognition)를 강화학습 (RL) 커뮤니티로 다시 끌어들였으며, 생성형 AI가 '뿌리 내린 상호작용(Grounded Interaction)'이 부족하다는 약점을 정확히 진단했으나, 수학적 현실 측면에서는 완벽하게 자가당착을 해결하지 못했다. 이 답은 학술 논문 속에서 만들어지는 것이 아니라, 2020년대 후반의 상업적 구현 전장에서 한 판 한 판 실전적인 싸움을 통해 쟁취될 것이다 oxed{24:39}.