AI 중심의 데이터 블랙홀

http://www.youtube.com/watch?v=4pG3SJQPAwk
《The data black hole at the center of AI》(AI 중심의 데이터 블랙홀)라는 제목의 이 영상에서, Dwarkesh Patel은 현재 AI의 발전 핵심이 알고리즘이나 샘플 효율성 (Sample Efficiency)의 돌파구가 아닌, 매우 놀라운 "데이터 양"에 의해 구동되고 있음을 심도 있게 탐구합니다. 그는 오늘날의 AI를 거대한 능력을 구성하는 은하계에 비유하지만, 그 중심에는 모든 것을 유지하는 보이지 않고 상상할 수 없는 "데이터 블랙홀"이 존재합니다.

다음은 영상의 핵심 관점을 상세히 분석한 내용입니다:

1. 샘플 효율성의 격차: AI와 인간의 거대한 차이

Patel은 "지능"의 중요한 정의 중 하나가 **샘플 효율성 (Sample Efficiency)**이라고 제안합니다. 즉, 특정 분야에서 숙련도와 정통함에 도달하기 위해 얼마나 많은 데이터가 필요한지를 의미합니다.

인간은 매우 효율적인 학습자입니다: 일반적인 사람이 태어나서 성인이 될 때까지 접하는 언어 데이터는 넉넉히 잡아도 약 2억 개의 토큰 (Token) 정도입니다. 청소년은 단 20시간의 연습만으로 운전을 배울 수 있습니다.
AI는 매우 비효율적인 데이터 포식자입니다: 현재의 최첨단 모델들은 학습을 위해 수십조에서 수백조 개의 토큰 (Token)을 필요로 합니다. 이는 인간과 백만 배 가까운 차이가 납니다. AI가 "Word 파일을 편집하는 것"이나 "인간처럼 로봇 팔을 조작하는 것"과 같은 미세한 기술을 배우는 것조차, 그 이면에는 수백 명의 인간 전문가가 제공하는 수만 개의 상세한 단계와 추론 경로가 필요합니다.
괴물 비유: AI가 보여주는 강력한 능력은 다양한 기술을 진정으로 습득한 인간과 같다기보다, 수십억 개의 정교하게 구축된 예시와 데이터 도표를 강제로 꿰맨 결과물인 "프랑켄슈타인의 괴물 (Frankenstein's monster)"에 더 가깝습니다.

2. 세 가지 흔한 변명에 대한 반박 (AI는 왜 아직 인간의 효율성에 도달하지 못했는가?)

업계에서 AI의 낮은 샘플 효율성을 변호하기 위해 내세우는 논리들에 대해 Patel은 하나씩 반박합니다:

변명 1: 인간은 수억 년의 진화를 통해 "사전 학습 (Pre-training)"을 거쳤다 (예: Karpathy의 관점)
- 반박: 인간의 게놈은 약 3GB에 불과하며, 그중 단 1%에서 2%만이 단백질을 코딩합니다. 이렇게 작은 공간에는 신경망 파라미터와 유사한 "사전 학습 가중치 (Pre-trained weights)"를 담을 수 없습니다. 진화가 인간에게 준 것은 **완벽한 하이퍼파라미터 (Hyperparameter)와 손실 함수 (Loss function)**에 더 가깝고, 인간 두뇌의 연결(가중치에 해당)은 여전히 일생 동안 처음부터 구축됩니다. 또한, AI가 사전 학습을 마쳤더라도 새로운 기술을 배울 때는 여전히 방대한 데이터가 필요하지만, 인간은 그렇지 않습니다.
변명 2: 인간은 방대한 양의 멀티모달 (Multimodal, 감각) 데이터를 접한다
- 반박: 시각 장애인이나 청각 장애인은 이러한 감각 데이터가 차단되어 있지만, 여전히 범용 지능을 가지고 있습니다. 청각 장애인은 음성 토큰 (Voice Token)을 수신할 수 없어 수어와 독서를 통해서만 소통하며, 평생 소비하는 토큰 양이 2억 개보다 훨씬 적을 수 있지만 그것이 그들이 매우 똑똑하다는 사실을 방해하지 않습니다. 이는 감각 토큰의 양이 인간 지능의 근본 원인이 아님을 증명합니다.
변명 3: 모델이 아직 충분히 크지 않다, 규모를 확장 (Scaling)하면 효율성이 높아질 것이다
- 반박: Chinchilla 등의 스케일링 법칙 (Scaling Laws)에 따르면, 모델 파라미터를 무한히 늘리더라도 필요한 데이터 양은 원래의 10분의 1(10배 감소) 수준으로만 줄어들 수 있습니다. 반면 인간의 효율성은 AI보다 수천에서 수백만 배 높습니다. 따라서 단순히 파라미터 크기를 쌓아 올리는 것만으로는 이 격차를 메울 수 없으며, 인간은 분명히 완전히 다른 "스케일링 곡선 (Scaling curve)" 위에 있습니다.

3. 왜 오픈 소스 모델이 폐쇄형 최첨단 모델을 바짝 추격할 수 있는가?

Patel은 Epoch의 보고서를 인용하며, 오픈 소스 모델이 종종 최첨단 모델보다 약 4개월 정도 뒤처질 뿐이라고 지적합니다.
그는 그 이유가 데이터가 진정한 동력이기 때문이라고 생각합니다. 하이퍼파라미터, 학습 기법, 아키텍처 최적화는 훔치기가 어렵지만, 데이터는 공개 API를 통해 쉽게 "증류 (Distill)"할 수 있기 때문입니다. 이것이 후발 주자들이 격차를 빠르게 좁힐 수 있는 핵심 이유입니다.

4. 효율성이 이렇게 낮은데, AI가 미래를 뒤바꿀 수 있을까?

AI의 학습 효율성이 경악스러울 정도로 낮음에도 불구하고, Patel은 AI 연구소의 두 가지 핵심 목표(화이트칼라 업무의 자동화 및 AI 연구 자체의 자동화)는 여전히 달성 가능하다고 믿습니다. 왜냐하면 AI는 인간이 따라올 수 없는 강점을 가지고 있기 때문입니다:

에너지로 능력을 교환하기 (기가와트급 훈련): 만약 한 인간이 소프트웨어 엔지니어가 되기 전에 GitHub의 모든 공개 저장소를 다 읽어야 한다면, 아마 졸업하기도 전에 연금을 받아야 할지도 모릅니다. 하지만 AI는 고강도의 연산력 (Compute)과 에너지 (Energy)를 통해 이러한 데이터를 순식간에 "삼킬" 수 있으며, 학습된 기술은 즉시 **수십억 개의 세션에 동시에 재사용 (Reuse)**될 수 있습니다. 이러한 한계 비용 (Marginal Cost)의 이점 덕분에 훈련 과정이 아무리 비효율적이라 할지라도 상업적으로는 매우 수익성이 높습니다.
소프트웨어 엔지니어에 대한 예측: 소프트웨어 엔지니어는 AI가 가장 먼저 대체하려고 시도하는 직군이지만, Patel은 AI가 가져올 보조 생산성 (Auxiliary Productivity)의 폭발로 인해 2027년 전 산업 분야의 인간 소프트웨어 엔지니어 수요는 현재보다 더 높아질 가능성이 크다고 내기를 걸 만큼 확신하고 있습니다.

5. 결론 및 미래의 미스터리

AI 연구소들의 현재 궁극적인 시나리오는 다음과 같습니다: 먼저 데이터 효율성 (Data Efficiency)은 낮지만 충분히 똑똑한 AI 연구원을 훈련시킨 다음, 이 AI 연구원이 "인간 수준의 샘플 효율성 (Sample Efficiency) 문제"를 해결하게 만드는 것입니다. Patel은 "인간과 같은 효율적인 학습 능력을 갖추지 못한 AI가 역으로 인간 수준의 지능과 학습 문제를 해결할 수 있을 것인가"라는 질문에 대해 매우 복잡한 과제이며, 향후 긴 블로그 포스트를 통해 계속해서 탐구해 나갈 것이라고 밝혔습니다.