왜 전문화가 불가피한가

최적화 이론, 진화 생물학, 경쟁 시장, 그리고 머신러닝(Machine Learning)이 모두 예측하는 것 — 그리고 왜 그 답이 모두 동일한가

Dharma AI를 팔로우하는 분들은 우리가 전문화(Specialization)를 비용과 성능부터 신뢰성 및 주권에 이르기까지 모든 것을 형성하는 효과적인 AI 시스템의 결정적인 원칙 중 하나로 보고 있다는 점을 이미 알고 계실 것입니다. Goldfeder, Wyder, LeCun, 그리고 Shwartz-Ziv의 2026년 연구만큼 이 사례를 엄격하게 설명한 논문은 거의 없습니다.

이 글에서 우리는 AI Must Embrace Specialization via Superhuman Adaptable Intelligence (Goldfeder, Wyder, LeCun, & Shwartz-Ziv, 2026)의 아이디어들을 탐구하고 해석합니다. 최적화 이론(Optimization theory), 생물학, 조직 경제학, 그리고 머신러닝(Machine Learning)을 아우르는 이 논문의 수렴 사례는 이어지는 논의를 위한 증거적 구조와 지적 토대를 모두 제공합니다. 여기서 제시되는 프레임워크, 구성 및 편집적 합성은 Dharma의 것입니다.

전통적인 기대는 합리적입니다. AI 시스템이 더 유능해짐에 따라 더 범용적(General)으로 성장해야 한다는 것입니다. 더 큰 능력과 더 넓은 적용 가능성은 자연스러운 동반자처럼 보입니다. 더 많은 자원, 더 나은 방법, 그리고 확장된 훈련은 점점 더 높은 확신을 가지고 더 많은 작업에 접근하는 시스템을 만들어낼 것으로 보입니다.

하지만 실제로 나타나는 패턴은 다릅니다. 특정 도메인에서 가장 유의미한 결과를 달성하는 시스템은 해당 도메인에 가장 좁게 집중된 시스템인 경향이 있습니다. 단백질 구조 예측(Protein structure prediction)의 돌파구는 단 하나의 과학적 과업을 위해 설계된 시스템에서 나왔습니다. AI의 역사적 이정표들을 면밀히 살펴보면, 범용성을 확장하기보다는 강렬한 도메인 타겟팅(Domain targeting)을 반영하고 있음을 알 수 있습니다.

이 패턴은 반복됩니다. 이는 여러 도메인, 여러 수십 년, 그리고 서로 공통점이 거의 없는 아키텍처(Architecture) 선택 전반에 걸쳐 반복됩니다. 이토록 일관된 패턴은 AI 연구 내부에서 기원한 것이 아닌, 공통된 원인이 있음을 시사합니다.

1997년, Wolpert와 Macready는 AI 아키텍처 논의에서 좀처럼 드러나지 않는 사실을 증명했습니다. 즉, 어떤 단일 범용 최적화 알고리즘 (optimization algorithm)도 가능한 모든 문제에 대해 다른 모든 알고리즘보다 뛰어난 성능을 보일 수 없다는 것입니다 (Wolpert & Macready, 1997). 이 증명은 철학적인 것이 아니라 수학적입니다. 학습자가 직면할 수 있는 모든 상상 가능한 문제들에 대해 평균을 내면, 모든 알고리즘은 똑같이 잘 작동하며, 동시에 똑같이 형편없이 작동합니다. 한 문제 분포에서 이득을 얻는 알고리즘은 필연적으로 다른 분포에서는 손해를 보게 됩니다. 성능은 배가되는 것이 아니라 재분배되는 것입니다.

실질적인 함의는 명확합니다. "알고리즘은 타겟 문제에 잘 들어맞음으로써 승리한다" (Goldfeder et al., 2026). 이 정리 (theorem)는 범용성 (generality)이 불가능하다고 말하는 것이 아닙니다. 범용성이 성능상의 이점은 아니라고 말하는 것입니다. 뛰어난 성능을 내기 위한 일관된 구조적 경로는 집중입니다. 즉, 넓이를 희생하여 적합성 (fit)을 얻는 것입니다.

유한한 자원이 개입하면 이 문제는 더욱 날카로워집니다. 모든 실제 시스템은 제약 조건 하에서 작동합니다. 즉, 유한한 컴퓨팅 자원 (compute), 유한한 데이터 (data), 유한한 개발 시간입니다. 유한한 에너지가 주어진 상황에서, 가용 자원을 유한한 작업 집합을 학습하는 데 집중하는 접근 방식은, 동일한 자원을 무제한의 범위에 분산시키는 방식보다 더 뛰어난 성능을 보일 것입니다. 산술적인 계산은 냉혹합니다. 작업 집합이 무한히 확장됨에 따라, 작업당 가용 자원은 0을 향해 줄어듭니다. 유한한 자원 하에서 보편적 커버리지 (universal coverage)와 의미 있는 성능은 서로 직접적인 긴장 관계에 놓입니다.

이 정리가 가리키는 결론은 범용성이 나쁘다는 것이 아닙니다. 그보다 더 좁고 운영적인 결론입니다. 논문에서 언급했듯이, "보편적 범용성은 이론적인 개념이지만, 실질적인 관점에서 그것은 신화에 불과하다" (Goldfeder et al., 2026). 실제 제약 조건과 마주했을 때 살아남는 것은 모든 것을 하려고 시도하는 시스템이 아니라, 자신의 타겟에 적합한 시스템입니다.

수학은 이를 선호의 문제가 아닌 예측으로 확립합니다. 이 예측이 최적화 이론 (optimization theory) 너머의 세상에서도 유효한지는 별개의 문제입니다.

최적화 이론 (optimization theory)이 이 현상에 이름을 붙이기 전에도, 다른 두 영역에서 동일한 예측에 도달했습니다.

논문에서 생물학적 사례를 설명하듯, 하나의 니치 (niche)에서 얻는 모든 성능 향상은 다른 곳에서의 비용을 수반합니다. 범용주의자 (generalist)는 많은 환경에 적합한 형질을 지니고 있지만, 그 어떤 환경에도 최적화되어 있지는 않습니다. 즉, 특정 조건을 지배하기에는 역량이 너무 널리 분산되어 있는 상태입니다. 트레이드오프 (trade-off) 없이는 성능 향상이 불가능합니다. 한 가지 능력에 투자된 자원은 다른 능력에는 사용할 수 없기 때문입니다. 자연 선택 (selection)은 가능한 모든 환경에 걸쳐 균일한 범위를 최적화하는 설계보다, 국소적 조건에 맞춘 설계를 선호합니다. 번식할 때까지 살아남는 유기체는 가장 범용적인 능력을 갖춘 존재가 아니라, 가장 특수하게 적합한 존재입니다. 진화적 시간 규모에 걸쳐 축적된 결과는 범용주의자들이 지배하는 것이 아니라, 전문화된 존재들이 니치 (niche)를 채우는 것입니다. 논문은 다음과 같이 기술합니다: "전문화는 생물학적 우연이 아닙니다. 이는 제한된 자원, 상충하는 목표, 그리고 진화적으로 유의미한 도전 과제의 작은 부분집합에서 성능을 보상하는 환경이 만들어내는 예측 가능한 결과입니다" (Goldfeder et al., 2026).

경쟁 시장 또한 다른 수단을 통해 동일한 역학을 따릅니다. 성능 임계값 (performance thresholds)을 충족하지 못하는 조직과 전략은 제거됩니다. 이는 멸종이 아니라 시장 퇴출, 자금 지원 중단, 그리고 더 적합한 대안으로의 교체를 통해 이루어집니다. 경쟁은 선택 기제 (selection mechanism)로 작용합니다. 즉, 효과적인 전략은 증폭시키고 비효과적인 전략은 제거합니다. 이 기제는 생물학적 선택과는 공통점이 없습니다. 유전도, 돌연변이도, 진화적 시간 규모도 없습니다. 선택의 단위는 유기체가 아니라 조직, 제품, 전략입니다. 하지만 구조적 압력은 동일합니다. 유한한 자원, 성능 요구 사항, 그리고 중요한 지점에서 탁월함을 발휘하기에는 너무 광범위하게 분산된 개체들을 체계적으로 제거하는 압력입니다. 성능 표준이 명확하고 일관될 때, 집중된 역량은 분산된 역량을 압도합니다.

진화와 시장은 완전히 다른 메커니즘 — 서로 다른 시간 척도(timescales), 서로 다른 선택 단위(units of selection), 서로 다른 상속 메커니즘(inheritance mechanisms) — 을 통해 작동합니다. 하지만 두 영역 모두 자원 압박(resource pressure) 하에서 동일한 결과, 즉 '폭(breadth)보다는 적합성(fit)'을 만들어냅니다. 이 정리(theorem)는 이를 예측합니다. 생물학과 시장은 독립적으로 이 결론에 도달합니다. 제3의 영역이 완전히 다른 수단을 통해 동일한 발견에 도달할 때, 이 패턴은 단순한 정리를 넘어 제약된 시스템(constrained systems)이 어떻게 행동하는지에 대한 더 일반적인 원리로 보이기 시작합니다.

동일한 패턴이 머신러닝 (machine learning) 내부에서도 나타났습니다. 이는 최적화 이론 (optimization theory)에서 도출된 것이 아니라, 시스템을 구축하고 무엇이 성능을 개선하는지 관찰하며 쌓인 경험을 통해 도달한 결과입니다.

가장 명확한 형태는 부정적 전이 (negative transfer)입니다. 이는 여러 태스크 (tasks)로 학습된 시스템이 각 태스크 간의 협력 대신 경쟁으로 인해 성능 저하를 겪을 때 발생하는 측정 가능한 퇴보를 의미합니다 (Ruder, 2017). 태스크들이 구조를 공유할 때는 함께 학습하는 것이 도움이 됩니다. 하지만 태스크들이 표현 용량 (representational capacity)을 두고 경쟁하거나 학습 과정에서 상충하는 그래디언트 (conflicting gradients)를 부과할 때, 개별 태스크의 성능은 전용 시스템 (dedicated system)이 달성할 수 있는 수준보다 낮아집니다. 폭 (breadth)으로부터 얻는 이득이 깊이 (depth)에 대한 비용이 되는 것입니다. 이는 서로 충돌하는 태스크들에 유한한 용량을 분배할 때 발생하는 문서화된 결과입니다. 이러한 경쟁에 직면하지 않는 전문가 (specialist)는 이 비용을 지불하지 않습니다.

프런티어 모델 (frontier models)의 아키텍처 (architecture)는 또 다른 형태의 증거를 제시합니다. 전문가 혼합 (Mixture-of-Experts, MoE) 시스템은 모든 파라미터 (parameters)에 걸쳐 균일한 범용성을 확보함으로써 넓은 범위를 달성하는 것이 아니라, 각 입력을 네트워크의 특화된 하위 집합으로 라우팅 (routing)하여 — 서로 다른 작업에 대해 서로 다른 전문가 (experts)를 활성화함으로써 이를 달성합니다. 이 논문의 저자들은 이를 구조적 양보 (structural concession)로 해석합니다. 즉, 범용성을 갖도록 설계된 시스템이 내부적으로 전문화 (specialization)를 회복함으로써 그 결과를 달성한다는 것입니다. 이는 논쟁의 여지가 있는 해석이지 입증된 정리 (theorem)는 아닙니다. 이러한 아키텍처들은 계산 효율성 (computational efficiency)을 위해 설계되었으며, 이것이 범용성의 한계에 대해 시사하는 바는 명시된 의도라기보다는 합리적인 추론에 가깝습니다. 하지만 이는 주목할 만한 점입니다. 가장 유능한 범용 시스템들이 전문화된 시스템이 설계상 수행하는 일을 내부적으로 수행함으로써 그 성능에 도달한다는 사실입니다.

가장 명확한 역사적 사례도 동일한 논리를 따릅니다. AlphaFold는 작업 특화적 아키텍처 (task-specific architecture)와 훈련 선택 (training choices)을 통해 해당 특정 작업을 목표로 함으로써 단백질 구조 예측에서 비약적인 변화를 이루어냈습니다 (Jumper et al., 2021). AlphaFold의 성과는 더 넓은 범위를 커버하는 것이 아니라, 더 좁은 집중에서 비롯되었습니다. 이 논문은 AlphaFold를 전형적인 사례로 사용합니다. 이는 모든 전문화된 시스템이 동일한 이득을 얻는다는 증거로서가 아니라, 그 메커니즘을 유난히 명확하게 보여주는 예시로서 사용됩니다. 그 메커니즘은 반복적으로 나타나 왔습니다. 논문은 AI 이정표의 역사가 결과적으로 일반 지능 (general intelligence)의 시연처럼 보일 때조차, 광범위한 역량보다는 강도 높은 도메인 타겟팅 (domain targeting)을 빈번하게 반영한다고 언급합니다.

세 가지의 뚜렷한 장소. 세 가지의 서로 다른 메커니즘. 동일한 발견.

AI 연구에서 가장 많이 인용되는 관찰 중 하나를 다루지 않는다면 그림이 불완전할 것입니다. Sutton의 Bitter Lesson (쓰라린 교훈)은 도메인 지식 (domain knowledge)에 의존하는 방법론이 계산량 (computation)을 확장하는 방법론에 의해 지속적으로 뒤처진다는 내용을 담고 있습니다 (Sutton, 2019). 겉으로 보기에 이는 전문화 (specialization)의 논거를 복잡하게 만드는 것처럼 보입니다. 만약 규모 (scale)와 범용성 (generality)이 승리한다면, 전문화는 컴퓨팅 비용이 저렴해짐에 따라 완화될 자원 제약 조건 하에서만 유용한 휴리스틱 (heuristic)일지도 모르기 때문입니다.

이러한 반론은 두 가지 서로 다른 개념을 혼동하는 데 기반하고 있습니다. 도메인 지식 (domain knowledge)은 시스템이 특정 영역에 대한 통찰력을 가질 수 있도록 설계된 수동 코딩된 특징 (hand-coded features), 설계된 사전 지식 (engineered priors), 그리고 규칙들을 의미합니다. Bitter Lesson은 바로 이 지점을 겨냥하고 있으며, 이는 타당합니다. 명시적인 도메인 지식을 인코딩 (encoding)한 시스템들은 규모가 커짐에 따라 지속적으로 성능이 뒤처져 왔습니다.

도메인 전문화 (domain specialization)는 다릅니다. 이는 시스템의 자원, 아키텍처 (architecture), 그리고 학습 (training)을 광범위하게 분산시키기보다는 제한된 작업 세트 (bounded set of tasks)로 향하게 하겠다는 결정입니다. 이것은 도메인에 대한 지식을 인코딩하는 것이 아닙니다. 그것은 범위 (scope)에 대한 결정입니다.

논문은 이 차이점을 정확하게 기술합니다:

"도메인 지식의 유용성 감소는 도메인 전문화의 유용성과는 별개의 문제입니다. 스케일링 (scaling)이 진행됨에 따라, 단백질 구조 예측 (protein folding) 시스템을 구축하기 위해 단백질에 대해 알아야 할 지식은 줄어들겠지만, 그러한 시스템은 여전히 단백질에 구체적으로 집중함으로써 이득을 얻습니다." (Goldfeder et al., 2026)

스케일링은 시스템이 데이터로부터 무엇을 배울 수 있는지를 변화시킵니다. 하지만 유한한 작업 세트에 자원을 집중하는 것이 무제한의 범위에 자원을 분산시키는 것보다 성능이 뛰어난지 여부를 바꾸지는 않습니다. Bitter Lesson과 전문화 논거는 서로 다른 차원에서 작동합니다. 하나는 지식이 어떻게 습득되어야 하는지를 설명하고, 다른 하나는 시스템이 어디를 향해야 하는지를 설명합니다. 이 두 가지는 동시에 참일 수 있습니다. 스케일링은 시스템이 학습하는 메커니즘 (mechanisms)을 변화시키지만, 범용성 (breadth)보다 적합성 (fit)을 더 가치 있게 만드는 제약 조건을 해소하지는 않습니다.

네 가지 분석 전통(analytical traditions)에 걸쳐, 서로 다른 경로를 통해 동일한 패턴이 나타났습니다. 이는 설명이 필요한 우연이 아닙니다. 그것은 증거입니다.

최적화 문제 (optimization problem), 생태계 (ecosystem), 시장 (market), 또는 학습 실행 (training run)에서 유한한 자원이 선택 압력 (selection pressure)과 만날 때, 적합성 (fit)은 일관되게 범용성 (breadth)을 압도합니다. 구체적인 메커니즘 (mechanisms)은 다릅니다. 시간 규모 (timescales)도 다릅니다. 선택의 단위 (units of selection)도 다릅니다. 하지만 구조적 역학 (structural dynamic)은 동일하며, 동일한 결과를 만들어냅니다.

이 정리 (theorem)가 생물학에서 이러한 패턴을 일으키는 것이 아닙니다. 생물학이 시장에서 이를 일으키는 것도 아닙니다. 그 어느 것도 머신러닝 (machine learning)에서 이를 일으키는 것이 아닙니다. 이들은 모두 동일한 근본적인 제약 조건에 직면해 있습니다: 즉, 희소성 (scarcity) 하에서의 성능은 집중 (concentration)을 요구한다는 것입니다. 이 정리가 수학적으로 확립한 것을 진화 역사 (evolutionary history)는 경험적으로 확인하며, 경쟁 시장 (competitive markets)은 제도적으로 입증하고, 머신러닝 (machine learning)은 구조적으로 (architecturally) 재발견합니다.

전문화 (Specialization)는 선호의 문제가 아닙니다. 그것은 유한한 자원이 수행 (perform) 요구 사항과 만날 때 나타나는 현상입니다.

귀하의 조직에서 도메인 집중 (domain focus)이 AI 성능에 어떻게 영향을 미치는지 평가하고 있거나, 전문화 전략을 위한 내부 근거를 마련하고 있다면, 귀하의 상황에 대해 듣고 싶습니다. Dharma AI에 문의해 주세요.

Goldfeder, S., Wyder, M., LeCun, Y., & Shwartz-Ziv, R. (2026). AI must embrace specialization via superhuman adaptable intelligence. arXiv:2602.23643.

Wolpert, D.H. & Macready, W.G. (1997). No free lunch theorems for optimization.

IEEE Transactions on Evolutionary Computation, 1(1), 67–82. Forister, M.L., Novotny, V., Panorska, A.K., Baje, L., Basset, Y., Butterill, P.T., & Dyer, L.A. (2012). Global distribution of diet breadth in insect herbivores.

Insights

왜 전문화가 불가피한가

요약

핵심 포인트

최적화 이론, 진화 생물학, 경쟁 시장, 그리고 머신러닝(Machine Learning)이 모두 예측하는 것 — 그리고 왜 그 답이 모두 동일한가

댓글

RQP: FPGA 상의 신경망을 위한 자원 지향적 양자화기 프루닝 (Resource-Oriented Quantiser Pruning)

Deep Agents가 샌드박스 없이 신뢰할 수 없는 코드를 실행하는 방법

COSM: 모바일 기기에서의 동시 PIM 및 CPU 실행을 위한 협력적 스케줄링 프레임워크

클리블랜드 연준 총재 해맥, AI가 인플레이션을 부채질한다고 보고하며 금리 인상이 필요할 수 있다고 언급

RQP: FPGA 상의 신경망을 위한 자원 지향적 양자화기 프루닝 (Resource-Oriented Quantiser Pruning)

Deep Agents가 샌드박스 없이 신뢰할 수 없는 코드를 실행하는 방법

COSM: 모바일 기기에서의 동시 PIM 및 CPU 실행을 위한 협력적 스케줄링 프레임워크

클리블랜드 연준 총재 해맥, AI가 인플레이션을 부채질한다고 보고하며 금리 인상이 필요할 수 있다고 언급