Matt Turck, OpenAI 강화학습 기초 팀(Foundations of Reinforcement Learning) 책임자 Dan

이번 인터뷰에서 진행자 Matt Turck은 OpenAI 강화학습 기초 팀(Foundations of Reinforcement Learning)의 책임자인 Dan Roberts와 대화를 나누었습니다.

Dan Roberts는 MIT 이론물리학 박사 학위를 보유하고 있으며, 블랙홀, 양자 중력 및 양자 혼돈을 연구하다가 AI 분야로 전향했습니다. 프로그램은 최근 수학 분야에서의 AI 돌파구(예: Erdos 추측 해결), 강화학습 (RL)의 본질, 사고의 사슬 (Chain of Thought) 및 테스트 시 계산 (Test-time compute), 그리고 AI를 이해하는 데 있어 물리학이 주는 시사점을 중심으로 매우 상세하고 심도 있는 논의를 진행했습니다.

다음은 인터뷰 내용의 완전하고 상세한 분석입니다:

1. 팀 배경 및 Dan의 과학적 경로

팀의 역할 oxed{01:21}: Dan이 이끄는 팀의 명칭은 “강화학습 기초 팀”입니다. 이들의 주요 임무는 강화학습의 과학적 원리를 연구하는 것입니다. OpenAI가 o1과 같은 추론 모델을 출시하기 전(Dan은 AI 분야의 “1년 전”이 마치 아주 오래전처럼 느껴진다고 농담했습니다)부터, 이들은 내부적으로 어떻게 계산량을 지능으로 전환할 것인지, 강화학습의 확장 법칙 (Scaling Laws)은 무엇인지, 그리고 RL을 통해 모델이 어떻게 “생각하는 법”을 배우게 할 것인지를 연구해 왔습니다.
물리학에서 AI로의 전환 oxed{03:09}: Dan은 양자 중력과 블랙홀 정보 이론 연구에 종사했습니다. 2015-2016년 기간 동안 DeepMind의 DQN이 아타리 게임을 플레이하고 AlphaGo가 성공하는 것을 보며, 그는 딥러닝이 하나의 “통계 과학”으로서 가진 거대한 잠재력을 보았습니다. 그는 AI가 우주와 마찬가지로 통계적 법칙을 따른다고 믿었으며, 2017년 FAIR (Facebook AI Research)에 합류하여 물리학적 도구를 사용하여 딥러닝을 이해하려고 시도했고, 《딥러닝 이론의 원리》라는 책을 공동 집필하기도 했습니다. 2년 전, 그는 기술의 최전선에 더 가까이 다가가기 위해 OpenAI 합류를 선택했습니다.

2. 세상을 놀라게 한 수학적 돌파구: Erdos 추측 해결

인터뷰가 진행될 당시, AI 업계가 수학계에서 중대한 돌파구를 마련한 주였습니다 (OpenAI, DeepMind, Anthropic 모두 성과를 발표함). Dan은 서로 다른 연구소들의 경로를 상세히 비교했습니다:

OpenAI의 돌파구 (단위 거리 문제/Erdos 추측) oxed{09:01}:
- 역발상: 해당 수학적 추측은 이전까지 누구나 참이라고 믿었지만 증명할 수 없었습니다. OpenAI의 모델은 매우 반전적인 (Contrarian) 가설을 세웠습니다 — 바로 해당 추측이 거짓이라고 가정한 것입니다.
- 학제 간 연결 및 끈기: 모델은 대규모 계산 하에서 수 시간 동안 이어지는 초장기 추론 경로를 유지하며, 이 문제를 전혀 다른 분야인 대수적 정수론 (Algebraic Number Theory)과 연결시켰고, 결과적으로 이 추측을 성공적으로 반박 (Refute)했습니다.
OpenAI vs. DeepMind의 경로 비교 oxed{10:29}:
- DeepMind (형식 언어 경로): 일반적으로 Lean과 같은 형식 수학 언어를 사용합니다. 자동 형식화 (Auto-formalization)를 통해 영어 문제를 매우 엄격한 컴퓨터 코드로 번역한 다음, 시스템이 증명을 탐색하도록 합니다. 장점은 증명이 절대적으로 무결하며, 인간의 2차 검토가 필요 없다는 점입니다.
- OpenAI (비형식/자연어 경로): 모델이 직접 수학 문제의 영어 표현을 이해하게 하고, 인간 수학자처럼 비형식적인 자연어와 수학 공식을 사용하여 증명을 작성하게 합니다. 장점은 인간의 사고 방식 및 분야 간 연상에 더 부합한다는 것이지만, 단점은 검증 (Verification)이 더 어렵고 인간의 검토가 필요하다는 점입니다.

3. 강화학습 (RL)이란 무엇인가?

대중의 이해를 돕기 위해, Dan은 매우 통속적인 설명을 제시했습니다:

마리오 게임 비유 (지도 학습 vs. 강화학습 (RL)) [12:38]:
지도 학습 (Supervised Learning): 마치 아버지가 마리오를 플레이하는 것을 몇 시간 동안 지켜보며, 직접 컨트롤러를 잡아본 적도 없이 그저 동작을 묵묵히 암기하는 것과 같습니다. 일단 직접 플레이하게 되면, 본 적 없는 상황에 대처하기가 매우 어렵습니다.
강화학습 (RL): 직접 컨트롤러를 잡고 플레이하는 것입니다. 처음에는 몬스터와 부딪혀 죽을 수도 있고, 두 번째에는 점프 버튼을 눌러볼 수도 있습니다. 이 과정에서 당신은 환경과 지속적으로 상호작용하며, 의사결정을 내리고, 피드백(보상)을 받습니다.
희소 보상 (Sparse Rewards) [14:28]: 체스와 같은 많은 복잡한 작업에서는 중간에 수를 두는 것이 맞는지 틀린지 알 수 없으며, 마지막에 이기거나 졌을 때만 최종적인 보상을 얻을 수 있는데, 이를 희소 보상이라고 합니다.
RL이 강력한 이유 [15:15]: 모델이
검증 가능한 보상 (Verifiable Reward)의 정의 oxed{35:36}: "지름길 찾기/보상 해킹 (Reward Hacking)"이 발생하지 않는 보상을 의미합니다. 예를 들어 수학 문제는 답이 무엇인지 명확하며, 코드는 문자열로 정확하게 매칭할 수 있습니다. 반면, 좋은 창의적 글을 쓰는 것은 인간의 취향이 개입되기 때문에 검증이 불가능합니다.
검증 불가능한 영역의 미래 oxed{36:46}: 법률, 컨설팅, 금융 등의 분야에는 수학처럼 절대적인 "검증 가능한 보상"이 부족함에도 불구하고, Dan은 OpenAI가 이러한 "모호한" 영역에서도 놀라운 제품을 출시할 것이라고 확신합니다. RL (강화학습)은 분산된 방식이나 인간의 선호도(Human Preference)를 통해 이 과정에서 역할을 수행할 것입니다.

7. 물리학은 AI를 이해하는 데 어떤 영감을 주는가?

거대함에서 미세함으로 (Big to Small)의 역발상 oxed{38:33}: Dan은 매우 흥미로운 물리학적 관점을 제시했습니다. 많은 이들이 모델이 커질 때 갑작스러운 "그로킹 (Grokking)"이나 불연속적인 도약이 발생한다고 생각합니다.
Dan은 이 관점에 단호히 반대합니다. 그는 만약 스케일링 (Scaling) 과정에서 단절이나 균열이 나타난다면, 그것은 당신이 확장하고 있는 대상을 전혀 이해하지 못하고 있음을 의미한다고 주장합니다. 물리학자들의 방식은 이렇습니다. 대규모 시스템에서 복잡한 현상(또는 붕괴)이 발생할 때, 다시 소규모 시스템으로 돌아가 더 단순한 "토이 모델 (Toy Examples)"을 설계하여 이를 재현합니다. 작은 모델에서 메커니즘을 정리하고 전체 확장 곡선을 매끄럽게 만들 수 있을 때 비로소 그것을 진정으로 이해했다고 할 수 있습니다 (마치 물리학에서 복잡한 뉴턴의 세계를 연구하기 위해 "구형 젖소 (Spherical Cow)"로 단순화하는 것과 같습니다).
AI의 열역학 이론 oxed{41:56}: Dan은 OpenAI 초기 Kaplan Scaling Laws (파라미터 수와 데이터 양만으로 최종 Loss를 예측하는 법칙)가 일종의 AI "열역학"이라고 생각합니다. 현재 부족한 점은 "미시적 (각 가중치와 편향)" 관점에서 "거시적 (전체 Scaling Law)" 관점으로 넘어가는 통계 역학적 가교를 어떻게 구축할 것인가 하는 점입니다.

8. 종착지 전망: AI는 아인슈타인에게 얼마나 가까이 있는가?

"9년 안에 아인슈타인 수준에 도달한다"는 농담에 대하여 oxed{43:06}: Dan은 이전에 했던 이 농담을 해체하여 설명했습니다. 아인슈타인이 일반 상대성 이론을 생각해 내는 데 8년이 걸렸는데, AI의 자율적 사고 능력이 배가되는 시간을 기준으로 계산하면 9년 안에 AI는 8년 동안 자율적으로 사고할 수 있게 됩니다. 하지만 그는 실제로는 모델 자체의 가속화된 반복 학습에 따라, 이러한 스케일링 (Scaling) 곡선이 중간에 다른 방식으로 깨질 것이라고 지적했습니다.
진정한 (Genuine) 과학적 발견 oxed{45:20}: Dan은 현재 AI가 보여주는 원초적인 과학적 혁신 능력에 설득되었다고 명확히 밝혔습니다. Erdos 추측의 해결이 그 철저한 증거입니다. AI는 대다수의 인간을 뛰어넘는 학제 간 시야와 매우 긴 경로의 반대적 (Contrarian) 사고 능력을 갖추고 있습니다.
AI의 자기 자동화와 과학의 매력 oxed{45:49}: AI는 이미 일상적인 코드와 수학 공학에서 핵심적인 역할을 수행하고 있으며, 미래에는 대규모 언어 모델이 "AI 자체의 과학 연구" (물리학을 연구하듯 AI를 연구하는 것)에 점점 더 많이 사용될 것입니다. Dan은 마지막으로, 인간 과학자들이 많은 궁극적인 과학 문제 앞에서 아쉬움을 남긴 채 은퇴할 수도 있겠지만, AI 모델이 과학적 발견을 추진하는 주력군이 되고 있는 모습을 보는 것은 우주의 궁극적인 신비를 밝혀내는 데 있어 형언할 수 없는 흥분을 준다고 감탄했습니다 oxed{48:14}.