본문으로 건너뛰기

© 2026 Molayo

Lobste.rs헤드라인2026. 06. 22. 21:19

뮌헨 1991: 현재 AI 붐의 뿌리

요약

현재 AI 붐의 핵심 기술인 Transformer, 사전 학습, 신경망 증류, 잔차 학습 등의 기원이 1991년 Jürgen Schmidhuber의 뮌헨 공과대학교 연구실에서 시작되었음을 설명합니다. 현대 LLM을 지탱하는 기술적 토대가 30년 전 이미 마련되었음을 역사적 타임라인을 통해 조명합니다.

핵심 포인트

  • 현대 LLM의 핵심 요소인 Transformer 변형 모델이 1991년에 이미 등장함
  • 비지도 사전 학습(Pre-training) 개념의 초기 기틀이 1991년에 마련됨
  • LSTM과 ResNet의 근간이 되는 심층 잔차 학습 기술의 기원 설명
  • Jürgen Schmidhuber 연구팀이 현대 딥러닝 시대의 설계자 역할을 수행함

오늘날 인공지능 (AI) 붐의 거대한 규모를 바라볼 때, 이 수조 달러 규모 산업의 토대가 30년 전 뮌헨에서 마련되었다는 사실을 잊기 쉽습니다.

오늘날 세계 최고의 기술 기업들은 ChatGPT와 같은 대규모 언어 모델 (LLMs)을 확장하는 데 수천억 달러를 투자하고 있습니다. 하지만 몇몇 역사 애호가들이나 머신러닝 (Machine Learning) 커뮤니티의 올드스쿨 전문가들을 제외하면, 이러한 현대 시스템의 거의 모든 핵심 구성 요소가 1991년 단 몇 개월 사이에 발표되었다는 사실을 사람들은 깨닫지 못할 수도 있습니다. 놀랍게도, 이 모든 것들은 Jürgen Schmidhuber가 이끄는 뮌헨 공과대학교 (Technical University Munich)의 단일 연구실에서 탄생했습니다.

그 해가 끝나기 전에, 그의 팀은 본질적으로 딥러닝 (deep learning)의 현대 시대를 설계했습니다. 그들은 최초의 트랜스포머 (Transformer) 변형 모델(ChatGPT의 "T"를 참조)을 발표했고, 비지도 사전 학습 (unsupervised pre-training) 개념(ChatGPT의 "P")을 도입했으며, 신경망 증류 (neural network distillation)를 개척했습니다. 또한 그들은 20세기와 21세기에 각각 가장 많이 인용된 AI 논문인 LSTM과 ResNet 모두의 중심 요소인 심층 잔차 학습 (deep residual learning)을 도입했습니다. 이 네 가지 기술은 오늘날 가장 진보된 LLM의 동력이 됩니다.
나아가, 그들은 "생성형 AI (Generative AI)"의 기초가 되는 생성적 적대 신경망 (generative adversarial networks)의 초기 기틀을 마련했습니다.

Jürgen의 기여는 Google Brain에서의 시간부터 현재 Sakana AI에서 추진하고 있는 재귀적 자기 개선 (recursive self-improvement, RSI) 연구에 이르기까지 수년간 저의 사고방식에 깊은 영향을 미쳤습니다. 저는 특히 1990년대에 그의 연구실이 도입한 개념을 직접적으로 바탕으로 하여, 2018년에 월드 모델 (World Models)을 대중화하는 데 기여했다는 점을 자랑스럽게 생각합니다.

이 아이디어들 중 일부가 세월의 시험을 견뎌내고 전 세계 AI 커뮤니티에 의해 완전히 수용될 만큼 확장되는 것을 보는 것은 놀라운 일입니다! 딥러닝의 실제 역사에 관심이 있는 분들을 위해, Jürgen은 1991년 뮌헨에서 이러한 씨앗들이 정확히 어떻게 심어졌는지에 대한 상세한 타임라인을 아래에 정리해 두었습니다.

David Ha, 2026년 6월

Jürgen Schmidhuber의 1991년 타임라인, 주석이 달린 참고 문헌 포함

컴퓨팅 비용이 오늘날보다 수백만 배 더 비쌌던 시절 [RAW], 나의 고향 도시에서 우리 팀이 1991년에 해낸 작업과 그곳에서 그리고 그 이후에 함께 일했던 모든 훌륭한 인재들이 매우 자랑스럽습니다. 1991년 3월 26일부터 1991년 8월 31일까지 작성된 TU Munich의 주요 AI 논문들을 확인해 보십시오.

★ 1991년 3월 26일: 최초 형태의 Transformer (ChatGPT의 T를 참조) — 현재는 unnormalized linear Transformer [ULTRA][FWP0-6][WHO10][DLH]라고 불림: normalized quadratic Transformer [TR1]의 전신입니다. ULTRA는 효율성 측면에서도 여전히 중요합니다. 계산 비용이 입력 크기에 따라 *이차적 (quadratically)*이 아닌 *선형적 (linearly)*으로 확장되기 때문입니다.

★ 1991년 4월 30일: 심층 신경망 (Deep Neural Networks, NNs)을 위한 사전 학습 (Pre-Training) — ChatGPT의 P [UN0][UN1][UN2][UN][DLH]. 이는 매우 깊은 학습 (very deep learning) [WHO5]을 가능하게 했습니다.

★ 1991년 4월 30일: 신경망 증류 (Neural network distillation) — 유명한 2025년 DeepSeek "Sputnik" 및 기타 거대 언어 모델 (Large Language Models, LLMs)의 핵심 요소입니다 [UN0][UN1][UN2][WHO9][DLH].

★ 1991년 6월 15일: 매우 깊은 NNs를 위한 잔차 연결 (residual connections)을 이용한 심층 잔차 학습 (deep residual learning) [WHO11] (Sepp Hochreiter의 학위 논문 [VAN1] 참조): 20세기 가장 많이 인용된 AI이자 2010년대 초기 LLM들(ELMO, ULMFiT)의 기반이 된 Long Short-Term Memory [LSTM1]의 핵심 성분입니다.

21세기에 가장 많이 인용된 과학 논문 [MOST25-26] 역시 심층 잔차 학습에 관한 것이며, 이전의 피드포워드 신경망 (feedforward NNs) [WHO11][DLH]보다 10배 더 깊었던 우리의 LSTM 기반 심층 잔차 Highway Net [HW1-25b]의 변형에 초점을 맞추고 있습니다. 심층 잔차 학습은 현재 사실상 모든 LLM에서 사용되고 있습니다.

★ 1991년 8월 31일: 인공적 호기심 (artificial curiosity) 및 창의성 (creativity)을 통해 학습되는 신경 세계 모델 (neural world models) [WM26,WM26b]을 위한 생성 및 적대적 네트워크 (generative & adversarial networks) [GAN90-25]에 관한 최초의 동료 검토 (peer-reviewed) 출판물 [GAN91] — 현재는 딥페이크 (deepfakes) 및 기타 생성형 AI (Generative AI) 응용 분야에서 논란의 여지가 있게 사용되고 있습니다 [WHO8][DLH].

2026년 1월 현재, 역대 가장 자주 인용된 두 편의 논문(3년 이내 최다 인용 기준—매뉴얼 제외)은 1991년의 연구에 직접적으로 기반을 두고 있습니다 [MOST26][MOST][MIR].
하지만 1991년 당시에도 LLM과 같은 신경망 (NNs)만으로는 *인공 일반 지능 (AGI)*을 달성하기에 충분하지 않다는 점은 이미 매우 명백했습니다. 현실 세계에 대한 숙달 없이는 AGI도 없습니다 [DLH]! 그렇기 때문에 우리는 AGI 달성에 필요한 추가적인 기술들을 연구하기 시작했습니다. 예를 들어 다음과 같은 것들이 있습니다:
인공 과학자 (Artificial Scientists) [AC] (1990년부터 뮌헨 공과대학교(TU Munich)에서 연구)가 생성한 적응형 세계 모델 (adaptive world models)을 이용한 계획 (planning) [PLAN1-6][WM26,WM26b],
메타 학습 (meta learning) 및 재귀적 자기 개선 (recursive self-improvement) (1987년부터) [META1][META],
그리고 그 외의 기술들 [DLH][AIB].

비슷한 시기에, 뮌헨은 또한 Ernst Dickmanns 팀에 의해 시내 도로를 주행하는 최초의 자율주행 자동차 (self-driving cars) [AUT] (최대 시속 175 km/h)의 발상지이기도 했습니다. 이 도시는 진정으로 AI의 중심지였습니다. 그러나 지난 30년 동안 대부분의 상업용 AI는 뮌헨에서 멀리 떨어진 환태평양 지역 (Pacific Rim)으로 이동했습니다. 어떻게 이런 일이 일어날 수 있었을까요? 이에 대해 무엇인가를 할 수 있을까요? 답은 [95-25]를 참조하십시오!

1991년에 발표된 연구 [MIR]의 더 넓은 역사적 맥락 [DLH]에 대해서는 [WHO3-11]을 참조하십시오.
나는 여전히 우리의 위대한 머신러닝 (Machine Learning) 분야가, 내가 은퇴할 수 있도록 나 자신보다 훨씬 더 똑똑한 무언가를 구축하려 했던 나의 1970년대 십 대 시절의 비전을 실현하는 것을 볼 수 있는 날까지 살아있기를 희망합니다.

Jürgen Schmidhuber, 2026년 6월

감사의 글

유익한 의견을 주신 여러 전문가 리뷰어분들께 감사드립니다. (남아있는 오류를 발견하시면 저희에게 알려주세요.)
이 기사의 내용은 Wikipedia 및 유사 사이트를 위한 기사를 포함하여 교육 및 비상업적 목적으로 사용될 수 있습니다.
이 저작물은 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International 라이선스에 따라 이용할 수 있습니다.

주석이 달린 참고 문헌

[95-25]
J. Schmidhuber (AI Blog, 2025).
1995-2025: 독일과 일본의 쇠퇴 vs 미국과 중국. 범용 로봇이 재도약의 동력이 될 수 있을까? IMF에 따르면, 1995년 명목 국내총생산 (GDP) 기준으로 독일과 일본의 합계는 미국과 중국의 합계와 경제적으로 거의 1:1 수준이었다. 불과 30년 만에 이 비율은 현재 1:5로 떨어졌다! 자기 복제 가능한 AI 기반 범용 로봇이 그 해답이 될 수 있을지도 모른다.
2024년 F.A.Z. 기고문을 바탕으로 작성됨.

[AC]
J. Schmidhuber (AI Blog, 2021, 2025년 업데이트). 인공적 호기심 (artificial curiosity) 및 창의성 (creativity)의 30년. Schmidhuber의 인공 과학자들은 주어진 질문에 답할 뿐만 아니라 새로운 질문을 발명하기도 한다. 이들은 다음과 같은 방식을 통해 호기심을 달성한다: (1990) 생성적 적대 신경망 (Generative Adversarial Networks)의 원리, (1991) 학습 진보를 극대화하는 신경망 (neural nets), (1995) 정보 이득 (information gain)을 극대화하는 신경망 (2011년 이후 최적화), (1997) 놀라운 계산 실험의 적대적 설계 (adversarial design), (2006) 과학자/예술가/코미디언들이 하는 방식과 같이 압축 진보 (compression progress)를 극대화, (2011) PowerPlay... 2012년 이후: 실제 로봇에 대한 응용.

[AIB]
J. Schmidhuber의 AI Blog.
AI 및 컴퓨팅 역사에 관한 교훈을 포함함, 예:
딥러닝 (deep learning)은 누가 발명했는가?
역전파 (backpropagation)는 누가 발명했는가?
합성곱 신경망 (convolutional neural networks)은 누가 발명했는가?
인공 신경망 (artificial neural networks)은 누가 발명했는가?
생성적 적대 신경망 (generative adversarial networks)은 누가 발명했는가?
Transformer 신경망은 누가 발명했는가?
심층 잔차 학습 (deep residual learning)은 누가 발명했는가?
신경 지식 증류 (neural knowledge distillation)는 누가 발명했는가?
컴퓨터는 누가 발명했는가?
트랜지스터 (transistor)는 누가 발명했는가?
집적 회로 (integrated circuit)는 누가 발명했는가?
...

[ATT] J. Schmidhuber (AI Blog, 2020, 2025년 업데이트). 엔드 투 엔드 미분 가능한 순차적 신경 주의 집중 (end-to-end differentiable sequential neural attention)의 30주년. 더불어 목표 조건부 강화학습 (goal-conditional reinforcement learning). Schmidhuber는 중심와 (foveas)를 위한 하드 어텐션 (hard attention, 1990)과 선형화된 셀프 어텐션 (linearized self-attention)을 갖춘 Transformer 형태의 소프트 어텐션 (soft attention, 1991-93)을 모두 보유하고 있었다.
[FWP] 오늘날, 두 유형 모두 매우 대중적이다.

[AUT]
J. Schmidhuber (AI Blog, 2005). 로봇 자동차 역사의 주요 장면들. 1986년경, 뮌헨 연방군 대학교(Univ. Bundeswehr Munich)의 Ernst Dickmanns와 그의 연구팀은 사카드 시각 (saccadic vision), 칼만 필터 (Kalman filters)와 같은 확률적 접근 방식 (probabilistic approaches), 그리고 병렬 컴퓨터 (parallel computers)를 사용하여 세계 최초의 실제 자율 주행 로봇 자동차를 제작했다. 1994년까지 그들은 고속도로 교통 상황에서 시속 180km로 다른 차량들을 자동으로 추월하기도 했다.

[DLH]
J. Schmidhuber.
현대 AI 및 딥러닝 (Deep Learning)의 주석 달린 역사. 기술 보고서 IDSIA-22-22, IDSIA, 스위스, 2022, 2025년 업데이트.
Preprint arXiv:2212.11279.
Tweet.

[DLP]
J. Schmidhuber.
3명의 튜링상 (Turing awardees) 수상자들이 창시자들에게 공로를 돌리지 않은 채 핵심 방법론과 아이디어들을 어떻게 재출판했는가. 기술 보고서 IDSIA-23-23, Swiss AI Lab IDSIA, 2023년 12월 14일, 2025년 업데이트.
2023년 Tweet.

[DS1]
DeepSeek-AI (2025).
DeepSeek-R1: 강화학습 (Reinforcement Learning)을 통한 LLM의 추론 능력 (Reasoning Capability) 장려. Preprint arXiv:2501.12948. 2025년 1월의 유명한 DeepSeek tweet을 참조할 것.

[FWP]
J. Schmidhuber (AI Blog, 2021년 3월 26일, 2025년 업데이트).
1991년 3월 26일: 신경망 (Neural nets)이 Transformer 변형 모델들과 유사하게 빠른 가중치 (fast weights)를 사용하여 신경망을 프로그래밍하는 법을 학습함. 2021년: 새로운 내용!
2022년 tweet을 참조할 것.

[FWP0]
J. Schmidhuber.
빠른 가중치 메모리 (fast-weight memories) 제어 학습: 순환 신경망 (recurrent nets)의 대안.
기술 보고서 FKI-147-91, Institut für Informatik, Technische Universität München, 1991년 3월 26일.
PDF.
저장과 제어를 분리하는 신경망 빠른 가중치 프로그래머 (neural fast weight programmers)에 관한 첫 번째 논문: 느린 네트워크 (slow net)가 경사 하강법 (gradient descent)을 통해 빠른 네트워크 (fast net)의 가중치 변화를 계산하는 법을 학습한다. 외적 (outer product) 기반 버전 (식 5)은 현재 정규화되지 않은 선형 Transformer (unnormalized linear Transformer) 또는 "선형화된 셀프 어텐션 (linearized self-attention)을 가진 Transformer"로 알려져 있다.
[ULTRA][FWP]

[FWP1] J. Schmidhuber. Learning to control fast-weight memories: An alternative to recurrent nets. Neural Computation, 4(1):131-139, 1992. [FWP0]에 기반함.
PDF.
HTML.
Pictures (German).
30주년을 기념하는 2022년 tweet을 참조할 것.

[FWP2] J. Schmidhuber. Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. In Proceedings of the International Conference on Artificial Neural Networks, Amsterdam, pages 460-463. Springer, 1993.
PDF.
*비정규화된 선형 Transformer (unnormalized linear Transformer)인 [ULTRA]의 순환 확장형(recurrent extension)*으로, "내부적인 주의의 스포트라이트 (internal spotlights of attention)"를 학습한다는 용어를 도입함. 외적 (outer products)을 사용하여 가중치 행렬 (weight matrices)을 프로그래밍하는 최초의 순환 신경망 (NN) 기반 빠른 가중치 프로그래머 (fast weight programmer).

[FWP3a] I. Schlag, J. Schmidhuber. Learning to Reason with Third Order Tensor Products. Advances in Neural Information Processing Systems (N(eur)IPS), Montreal, 2018.
Preprint: arXiv:1811.12143. PDF.

[FWP6] I. Schlag, K. Irie, J. Schmidhuber.
Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Preprint: arXiv:2102.11174.

[GAN90]
J. Schmidhuber.
Making the world differentiable: On using fully recurrent
self-supervised neural networks for dynamic reinforcement learning and
planning in non-stationary environments.
Technical Report FKI-126-90, TUM, Feb 1990, revised Nov 1990.
PDF.
*강화학습 (reinforcement learning) 순환 신경망 (NNs) 및 순환 세계 모델 (recurrent world models) (더 보기)을 이용한 계획 (planning), 그리고 생성자 신경망 (generator NN)이 예측자 신경망 (predictor NN)과 미니맥스 게임 (minimax game)에서 대결하는 생성적 적대 신경망 (generative adversarial networks) (더 보기)에 관한 최초의 논문.
분명히, 예측자 신경망에 대해 "세계 모델 (world model)"이라는 용어를 사용한 최초의 이와 같은 종류의 논문이기도 함 (비록 세계 모델의 기본 개념은 그보다 훨씬 더 오래되었지만).
*

[GAN91]
J. Schmidhuber.
A possibility for implementing curiosity and boredom in
model-building neural controllers.
In J. A. Meyer and S. W. Wilson, editors, Proc. of the
International Conference on Simulation
of Adaptive Behavior: From Animals to
Animats
, pages 222-227. MIT Press/Bradford Books, 1991.
PDF.
더 보기.
[GAN90]에 기반함.

[GAN10]
J. Schmidhuber. Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010). * IEEE Transactions on Autonomous Mental Development*, 2(3):230-247, 2010.
IEEE 링크.
PDF.
이 잘 알려진 2010년 서베이(survey)는 1990년의 생성적 적대 신경망 (Generative Adversarial NNs)을 다음과 같이 요약했습니다:
"예측 세계 모델 (predictive world model)로서의 신경망은 컨트롤러의 내재적 보상 (intrinsic reward)을 최대화하는 데 사용되며, 이 보상은 모델의 예측 오차 (prediction errors) (최소화되는 대상)에 비례한다"

[GAN10b]
O. Niemitalo. A method for training artificial neural networks to generate missing data within a variable context.
블로그 포스트, Internet Archive, 2010.
GANs의 기본 아이디어[GAN90-91][GAN20][AC]를 설명하는 블로그 포스트.

[GAN14]
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair,
A. Courville, Y. Bengio.
Generative adversarial nets. NIPS 2014, 2672-2680, Dec 2014.
1990년 Schmidhuber의 독창적인 GAN 원리[GAN90-91][GAN20][AC][R2][DLP]를 인용하지 않으며, 예측 가능성 최소화 (Predictability Minimization) [PM0-2][GAN20][DLP]를 위한 Schmidhuber의 적대적 신경망 (adversarial NNs)에 대해 잘못된 주장을 포함하고 있는 GANs에 대한 설명*

AI 자동 생성 콘텐츠

본 콘텐츠는 Lobste.rs AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0