「The Bitter Lesson(苦い 교훈)」을 다시 읽다 — 2026년의 관점에서
요약
Rich Sutton의 에세이 'The Bitter Lesson'을 통해 AI 연구에서 인간의 도메인 지식보다 계산량을 스케일링할 수 있는 범용적 방법론(탐색 및 학습)이 왜 궁극적인 승리를 거두는지 분석합니다. 2026년의 관점에서 Transformer와 Vision Transformer의 등장은 이러한 교훈이 더욱 극단적이고 강력하게 증명되었음을 보여줍니다.
핵심 포인트
- 인간의 도메인 지식을 시스템에 주입하는 방식은 단기적으로 유효할 수 있으나, 장기적으로는 계산 스케일링을 활용하는 범용 방법론에 패배한다.
- 계산량을 임의로 확장할 수 있는 핵심적인 두 가지 방법론은 탐색(Search)과 학습(Learning)이다.
- AI 연구의 목표는 인간이 발견한 지식을 내포하는 것이 아니라, 스스로 발견할 수 있는 메타 수법을 구축하는 것이어야 한다.
- Transformer의 등장은 CNN과 같은 특정 구조적 불변성에 의존하던 기존 패러다임을 깨고 범용적 스케일링의 힘을 재확인시켰다.
「AI 연구 70년에서 읽어낼 수 있는 최대의 교훈은, 계산을 활용하는 범용적인 방법론이 궁극적으로 가장 효과적이며, 그 차이는 압도적이라는 것이다.」
— Rich Sutton, 2019
서론
강화학습 (RL)의 아버지라 불리는 Rich Sutton 교수가 2019년에 발표한 짧은 에세이 The Bitter Lesson은, 발표로부터 7년이 지난 지금도 AI 연구·개발 현장에서 반복적으로 인용되는 고전이 되었습니다.
본 기사에서는 이 에세이의 주장을 정리한 후, 2026년 현재의 관점에서 이 교훈이 여전히 유효한가를 다시 한번 생각해 보고자 합니다. 특히 LLM이나 Vision Transformer의 시대가 도래한 지금, Sutton의 통찰이 어떻게 더 극단적인 형태로 재검증되었는지에 주목합니다.
1. 「고통스러운 교훈」이란 무엇인가
Sutton의 주장은 한 문장으로 요약할 수 있습니다.
「인간의 도메인 지식 (domain knowledge)을 시스템에 구축하려는 시도는 단기적으로는 도움이 되지만, 장기적으로는 반드시 계산을 스케일 (scale)시키는 범용적인 방법론에 패배한다.」
그가 제시하는 메커니즘은 다음과 같습니다.
무어의 법칙 (Moore's Law) (또는 그 일반화)
↓
시간의 경과에 따라 사용할 수 있는 계산량이 지수 함수적으로 증가
...
연구자들은 단기적인 성과를 위해 인간의 지식을 활용하려 하지만, 연구 프로젝트보다 조금 더 긴 시간 스케일로 보면 계산량은 폭발적으로 증가합니다. 그리고 인간 지식 베이스 기반의 복잡한 수법은 오히려 새로 이용 가능해진 계산 자원을 활용하기 어렵게 만들며, 결국에는 심플하고 범용적인 방법론에 추월당하고 마는 것입니다.
2. 역사가 증명하는 4가지 사례
Sutton은 자신의 주장을 뒷받침하기 위해 AI사에서의 4가지 결정적인 순간을 제시하고 있습니다.
🏆 사례 1: 컴퓨터 체스 (1997)
| 접근 방식 | 결과 |
|---|---|
| 인간의 체스 이해를 활용한 수법 | 패배 |
| 대규모 심층 탐색 (deep search) + 전용 하드웨어 | 카스파로프 격파 |
당시 인간 지식 베이스를 가진 연구자들은 "이것은 brute force에 불과하며, 진정한 지능이 아니다"라며 받아들이지 못했습니다. 하지만 이것이야말로 고통스러운 교훈의 본질입니다.
🏆 사례 2: 컴퓨터 바둑 (2016, AlphaGo)
체스보다 20년 늦게, 완전히 동일한 패턴이 반복되었습니다.
- 초기: 바둑의 특수성에 대한 인간 지식의 활용 → 실패
- 후기: 탐색 (Search) + 자기 대전 학습 (self-play) → 이세돌 9단 격파
여기서 Sutton은 중요한 개념을 제시합니다.
탐색 (Search)과 학습 (Learning)이야말로 계산을 임의로 스케일 시킬 수 있는 두 가지 일반적인 방법론이다.
🏆 사례 3: 음성 인식
1970년대 DARPA 컴피티션에서의 대립 구조:
- 인간 지식 진영: 단어, 음소, 성도 구조의 지식을 활용
- 통계 진영: 은닉 마르코프 모델 (HMM) + 대량 계산
승자는 통계 진영이었으며, 그 후 자연어 처리 전체가 통계와 계산에 의해 지배되어 갔습니다. 그리고 그 도달점이 현대의 딥러닝 (deep learning) 음성 인식 시스템입니다.
🏆 사례 4: 컴퓨터 비전
- 초기: 에지 검출 (edge detection), generalized cylinder, SIFT 특징량
- 현재: 합성곱 신경망 (CNN) + 대규모 학습 데이터
⚠️
2026년의 관점에서 보면, 이 부분은 더욱 흥미로운 상황이 되었습니다. 나중에 자세히 다루겠습니다.
3. 두 가지 일반적 교훈
Sutton은 이러한 사례들로부터 두 가지 깊은 통찰을 이끌어냅니다.
💡 교훈 1: 범용 수법의 힘
계산량이 아무리 커져도 계속해서 스케일 할 수 있는 수법은 단 두 가지: 탐색 (Search)과 학습 (Learning).
💡 교훈 2: 「마음의 내용물」을 코드에 심지 마라
마음의 실제 내용물은 끝이 없을 정도로 복잡하다.
공간, 물체, 다중 에이전트, 대칭성과 같은 개념을 단순화하여 시스템에 구축하려 하지 마라.
대신, 이러한 임의의 복잡성을 발견할 수 있는 메타 수법 (meta-methods)만을 구축해야 한다.
「우리가 원하는 것은 우리처럼 발견할 수 있는 AI이지, 우리가 발견한 것을 내포한 AI가 아니다.」
이 한 문장이야말로 이 에세이의 핵심입니다.
4. 왜 「고통스러운」 교훈인가
Sutton이 이 교훈을 「고통스럽다 (bitter)」라고 표현하는 이유는 명확합니다.
- AI 연구자는 항상 자신의 지식을 시스템에 주입하고 싶어 한다 (인간적·심리적 욕구)
- 그것은
단기적으로는 항상 효과가 나타난다 (그렇기에 더욱 위험하다) - 하지만 장기적으로는 정체되며, 오히려 진보를 방해한다 - 결국 「인간 중심적」인 접근 방식을 부정하는 형태로 돌파구가 열린다
자신이 사랑했던 접근 방식이 부정되는 형태로 승리가 찾아오기 때문에, 그 성공에는 쓴맛이 뒤따르는 것입니다.
5. 2026년의 시점 — 교훈은 더욱 강화되었다
🔥 Transformer가 모든 것을 바꾸었다
Sutton이 2019년에 이 글을 썼을 때, 그는 컴퓨터 비전 (Computer Vision)을 「합성곱 (Convolution)과 불변성 (Invariance)」이라는 두 가지 개념으로 요약했습니다. 하지만 그 직후, 그의 주장은 더욱 극단적인 형태로 검증되는 일이 벌어집니다.
| 연도 | 사건 | 의미 |
|---|---|---|
| 2017 | Transformer (Attention) 등장 | 시작 |
| 2020 | Vision Transformer (ViT) | 합성곱 없이 SOTA 달성 |
| 2022~ | MAE, DINOv2 등 | CNN 시대의 종언 |
| 2023~ | LLM이 모든 멀티모달 (Multimodal) 태스크를 흡수 | 태스크별 모델의 소멸 |
아이러니하게도, Sutton 스스로가 예로 들었던 CNN조차 인간 설계의 흔적이 너무 많았습니다. 합성곱이라는 공간적 국소성 (Spatial Locality)이라는 인간이 부여한 귀납적 편향 (Inductive Bias) 조차 불필요했던 것입니다.
Transformer는 거의 어떠한 구조적 가정 없이, 데이터와 계산만으로 더 나은 성능을 낸다는 점에서 쓴 교훈의 가장 극단적인 검증이 되었습니다.
🔥 LLM = 쓴 교훈의 결정판
GPT-4, Claude, Gemini와 같은 현대의 대규모 언어 모델 (LLM)은 다음을 보여주고 있습니다.
- 문법 규칙을 코드로 구현하지 않는다 → 데이터로부터 학습
- 상식 추론 규칙을 코드로 구현하지 않는다 → 데이터로부터 학습
- 도메인 지식 (법률, 의학, 코딩)을 개별적으로 학습시키지 않는다 → 동일한 아키텍처, 더 많은 데이터
- 다국어 처리를 위한 언어별 모델이 없다 → 하나의 모델, 모든 언어
그리고 가장 결정적인 사실:
모델의 크기와 데이터를 늘리면, 명시적으로 가르쳐주지 않은 능력이 자연스럽게 발생 (Emerge)한다.
이것이야말로 Sutton이 말한 **「발견할 수 있는 AI」**의 모습이 아닐까요.
6. 엔지니어가 일상에서 직면하는 「쓴 교훈」
이론적인 이야기처럼 들리지만, 이 교훈은 우리의 일상적인 엔지니어링 판단에 직접적인 영향을 미칩니다.
현장에서의 분기점
[분기 A] 「이 분야 전문가의 지식을 규칙으로 코드로 구현하자」
↓
빠르게 동작하는 베이스라인 (Baseline)을 얻을 수 있다
...
그렇다면 「쓴 교훈」은 도메인 지식이 무의미하다는 뜻인가?
그렇지 않습니다. Sutton의 주장은 다음과 같이 해석해야 합니다.
- ❌ 「도메인 지식을 사용하지 마라」
- ✅ 「도메인 지식을 모델의 구조에 심지 마라. 대신 데이터, 평가, 보상 설계에 사용하라」
도메인 전문성은 다음 영역에서는 여전히 핵심적입니다.
- 어떤 문제를 풀어야 할지 정의하는 것
- 양질의 데이터를 수집 및 큐레이션 (Curation) 하는 것
- 정확한 평가 지표를 설계하는 것
- 모델 출력을 검증하고 안전성을 확보하는 것
즉, 「What」과 「Why」는 인간이, 「How」는 점점 더 모델이 담당하는 방향으로 나아가고 있는 것입니다.
7. 제조업 AI에도 적용되는가 — 필자의 현장 감각
필자는 외관 검사 AI 분야에서 개발을 진행하고 있습니다만, 이 교훈은 제조업 현장에서도 서서히 나타나고 있습니다.
수년 전까지만 해도 결함 검출은 규칙 기반 (Rule-based) 영상 처리 + 전문가의 도메인 지식으로 구성되었습니다. 「이 부품에서는 이 특징량, 이 임계값으로」와 같은 인간 설계가 중심이었습니다.
하지만 최근에는 소량 데이터 학습으로 일반화하는 범용 이상 탐지 모델 (PatchCore, DINOv2 기반 기법 등) 이 오랜 기간 쌓아온 규칙들을 단번에 대체하는 사례가 늘고 있습니다. 이것 또한 규모는 작지만 하나의 「쓴 교훈」이라고 할 수 있을 것입니다.
다만 중요한 것은 — 앞서 언급했듯이 — 도메인 지식은 데이터 수집과 평가 설계 속에 계속 살아남아 있다는 점입니다. 「인간 설계의 알고리즘」에서 「인간 설계의 데이터와 평가」로, 지식의 위치가 옮겨가고 있을 뿐입니다.
8. 마치며 — 우리는 무엇을 해야 하는가
Sutton의 결론을 다시 한번 되새겨 봅시다.
"우리가 원하는 것은 우리처럼 발견할 수 있는 AI이지, 우리가 발견한 것을 내포한 AI가 아니다."
2026년의 우리는 이 메시지를 그 어느 때보다 진지하게 받아들여야 합니다. 매일 새로운 파운데이션 모델 (Foundation Model)이 발표되고, 어제까지 SOTA (State-of-the-Art)였던 특화 모델이 범용 모델에 의해 순식간에 추월당하는 시대입니다.
개발자로서 우리가 던져야 할 질문은 다음과 같습니다.
- 지금 내가 만들고 있는 시스템은 계산량이 10배, 100배가 되었을 때 함께 성능이 좋아지는가?
- 모델에 심으려고 하는 '인간의 지혜'는 정말로 필요한 것인가, 아니면 단기적인 성과만을 위한 것인가?
- 자신의 지식을 모델의 *구조 (Structure)*가 아니라, *데이터와 평가 (Data and Evaluation)*로 옮길 수 있는가?
쓴 교훈 (The Bitter Lesson)은 7년이 지난 지금도 — 오히려 이전보다 더 — 우리에게 깊은 질문을 계속해서 던지고 있습니다.
참고 자료
- 원문: The Bitter Lesson - Rich Sutton (2019)
- 관련 논문:
- Vaswani et al. (2017) "Attention Is All You Need"
- Dosovitskiy et al. (2020) "An Image is Worth 16x16 Words" (ViT)
- Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
이 글이 여러분의 개발 판단에 조금이라도 영감을 줄 수 있다면 좋겠습니다. 의견이나 질문은 댓글로 공유해 주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기