전문화가 규모를 압도한다: 대부분의 AI 조달 결정에서 간과되는 전략적 변수

모델의 학습 이력이 배포 작업(deployment task)에 충분히 근접할 때, 파라미터 수(parameter count)는 더 이상 결정적인 변수가 되지 않습니다. 30억 파라미터(3-billion-parameter) 규모의 전문화된 모델이 잘 측정된 기업용 도메인에서 테스트된 모든 상용 프런티어 API(commercial frontier API)보다 뛰어난 성능을 보였으며, 비용은 약 50배 더 저렴했습니다.

지난 4월, 우리는 구조화된 OCR을 위한 한 쌍의 전문화된 소형 언어 모델(small language models)인 DharmaOCR과 함께 벤치마크 및 관련 논문을 공개했습니다. 모델과 벤치마크는 Hugging Face에서 확인할 수 있습니다. 이들은 실제 운영되는 AI 시스템(production AI systems)에서 전문화(specialization), 정렬(alignment), 그리고 추론 경제성(inference economics)이 어떻게 상호작용하는지 연구하려는 Dharma의 광범위한 노력의 일환입니다.

이 글은 해당 연구 결과로부터 하나의 전략적 시사점을 분리하여 다룹니다: 바로 전문화, 분포 정렬(distributional alignment), 그리고 파라미터 규모(parameter scale) 사이의 관계입니다. 이어지는 내용은 논문이 뒷받침하는 범위 내에서 이를 전개합니다.

지난 3년 동안 기업의 AI 전략은 대체로 안정적인 가정하에 운영되어 왔습니다: 가장 안전한 선택은 대개 사용 가능한 가장 큰 프런티어 모델(frontier model)을 사용하는 것이라는 점입니다. 더 작은 모델은 주로 낮은 비용을 대가로 품질의 일부 저하를 감수할 수 있는 워크로드(workload)가 있는 경우에만 고려되었습니다. 그 가정 뒤에 숨겨진 논리는 명확했습니다. 역량(Capability)은 파라미터 수에 따라 확장되는 것처럼 보였고, 프런티어 제공업체들은 주요 벤치마크를 지속적으로 선도했으며, 잘못된 모델을 선택하는 비용은 선두 모델에 비용을 지불하는 비용보다 더 크다고 인식되는 경우가 많았습니다.

그러한 추론은 방어 가능합니다. 하지만 이제 실증적 기록(empirical record)에는 그 배후의 비교 집합으로는 쉽게 설명할 수 없는 결과가 포함되어 있습니다.

올해 초, Dharma는 30억 파라미터(3-billion-parameter) 규모의 모델이 — 충분한 자원을 갖춘 기업이라면 누구나 복제할 수 있는 미세 조정(fine-tuning) 파이프라인을 통해 전문화되었음에도 불구하고 — 테스트된 모든 상용 프런티어(frontier) API보다 뛰어난 성능을 보였다는 벤치마크를 발표했습니다. 이는 근소한 차이도 아니었으며, 구매자가 무시할 만한 지표상에서의 결과도 아니었습니다. 비용 격차는 품질 격차와는 반대 방향으로 나타났습니다. 가장 높은 점수를 받은 모델이 운영 비용 또한 가장 저렴했으며, 그 차이는 유의미한 규모의 조달 산술(procurement arithmetic)을 바꿀 수 있을 만큼 충분히 컸습니다.

이 결과는 고립된 사례가 아닙니다. 이는 Dharma가 다른 영역에서도 관찰해 온 패턴 중 현재까지 가장 엄격하게 측정된 사례이며, 점점 늘어나는 전문화 연구(specialization research)에서도 기록되기 시작한 패턴입니다 (Subramanian et al., 2025; Pecher et al., 2026). 하지만 이는 명시적으로 질문할 가치가 있는 문제를 제기합니다. 가장 큰 모델이 가장 성능이 좋은 모델이 아닐 때, 어떤 변수가 그 역할을 수행하고 있는 것일까요?

조달의 기본 설정(default)은 우연히 발생한 것이 아닙니다. 지난 3년 중 대부분의 기간 동안 그것이 옳았기 때문에 형성된 것입니다.

GPT-4가 출시되었을 때, 이 모델은 중요한 벤치마크에서 모든 더 작은 모델보다 뛰어난 성능을 보였습니다. 이러한 패턴은 Claude 3, Gemini 1.5, 그리고 2025년의 각 세대별 프런티어 출시를 거치며 개선된 형태로 반복되었습니다. 능력(Capability)은 파라미터 수 및 훈련 컴퓨팅 자원(training compute)과 함께 확장되었으며 (Kaplan et al., 2020) — 이는 OpenAI의 스케일링 법칙(scaling laws)이 수년 전에 공식화한 경험적 관계였습니다. 그에 따른 교훈은 다음과 같았습니다. 사용 가능한 가장 큰 모델을 선택하는 구매자는 평균적으로 가장 성능이 좋은 도구를 선택하는 것이었습니다. 더 식별력 있는 신호(discriminating signal)가 없는 상황에서, 규모(scale)를 기본값으로 선택하는 것은 합리적인 움직임이었습니다.

그 가정은 방어 가능했습니다. 왜냐하면 그 가정을 만들어낸 대부분의 비교 대상에 대해서는 그것이 옳았기 때문입니다. 변한 것은 그 가정이 항상 틀렸었다는 점이 아닙니다. 변한 것은 그 가정이 근거하고 있던 비교 집합(comparison set)이 완전하지 않았을 수도 있다는 점입니다.

부족했던 것은 다른 종류의 모델이었습니다. 더 작은 프론티어 모델 (frontier model)이 아니라, 전문화된 모델 (specialized model)이었습니다. 즉, 더 작은 베이스 모델 (base model)을 배포될 도메인에 맞게 적응시키는 일련의 미세 조정 (fine-tuning) 단계를 통해, 수행할 작업에 의도적으로 더 가깝게 훈련 이력을 이동시킨 모델을 의미합니다. 서두에서 언급한 논문은 비용, 품질, 그리고 운영 안정성 (production stability)을 나란히 측정하며 이러한 비교를 수행한 최초의 사례 중 하나입니다.

논문에서 사용된 벤치마크는 도메인 특화 평가였습니다. 인쇄된 문서, 필기체 텍스트, 그리고 법률 및 행정 기록 전반에 걸친 브라질 포르투갈어 OCR (광학 문자 인식)입니다. 벤치마크 자체가 이 글의 핵심은 아닙니다. 중요한 것은 그것이 무엇을 측정했는지, 그리고 어떤 비교를 수행했는지입니다.

추출 품질 (extraction quality) 측면에서, 비교 대상 중 가장 높은 점수를 기록한 모델은 전문화된 30억 파라미터 (3-billion-parameter) 모델이었습니다. 이 모델은 편집 거리 유사도 (edit-distance similarity)와 n-gram 중첩 (n-gram overlap)을 결합한 벤치마크 종합 점수에서 0.911을 기록했습니다. 가장 근접한 프론티어 대안인 Claude Opus 4.6은 0.833을 기록했습니다. 그 뒤를 이어 Gemini 3.1 Pro가 0.820, GPT-5.4가 0.750, Google Vision이 0.686, Google Document AI가 0.640, GPT-4o가 0.635, Amazon Textract가 0.618, 그리고 Mistral OCR 3가 0.574를 기록했습니다. 전문화된 모델이 1위를 차지했으며, Claude Opus 4.6과의 격차는 약 8% 포인트에 달해 비교 대상 중 인접한 순위 간의 격차보다 더 컸습니다.

DharmaOCR-Benchmark에서 평가된 모델들의 결과. 첫 번째 열의 괄호는 사용된 전문화 기술을 나타냅니다. 모델이 LoRA로 표시되지 않은 경우, 전체 미세 조정 (full fine-tuning)이 수행되었음을 의미합니다. “Quant”라고 표시된 항목은 양자화 구성 중 최고의 성능을 보이는 AWQ 양자화 (AWQ-quantized) 변형 모델을 나타냅니다.

비용 측면에서 그 격차는 훨씬 더 컸습니다. 전문화된 3B 모델은 Claude Opus 4.6에 비해 백만 페이지당 비용이 약 52배 더 낮게 실행되었습니다. 이 마진은 공개된 API 가격 대비 추론 인프라 (inference-infrastructure) 비용을 기준으로 계산되었습니다. 파레토 프런티어 (Pareto frontier)로 도식화된 품질-비용 관계를 보면, 전문화된 모델은 차트의 좌측 상단에 위치하는 반면, 상용 API들은 그 아래와 우측에 위치합니다. (재무 모델링의 깊이에 관한 내용은 'The Real Economics of Text Degeneration'에서 다룹니다.)

운영 안정성 (production stability) 측면에서도 동일한 모델이 평가된 항목 중 가장 낮은 텍스트 퇴화 (text-degeneration)율을 기록했습니다. 이는 생성 결과물이 자기 강화 루프 (self-reinforcing loop)에 빠져 사용 가능한 출력을 생성하지 못하는 빈도를 측정하는 지표입니다. (운영 안정성에 관한 사례는 클러스터의 'Text Degeneration' 기사에서 다룹니다.) 3B 모델은 이 벤치마크에서 0.20%를 기록했으며, 그다음으로 근접한 전문화 모델은 0.40%였습니다. 더 큰 규모의 범용 오픈 소스 베이스라인 (open-source baselines) 모델들은 더 높은 수치를 기록했고, 상용 API들은 이 지표로 직접 벤치마크를 수행하지 않았습니다.

정렬 (alignment) 단계별 텍스트 퇴화율 (%). 대부분의 경우 SFT가 바닐라 (vanilla) 모델에 비해 퇴화를 줄여주며, DPO는 SFT로 튜닝된 모델과 비교해서도 퇴화를 더욱 감소시킵니다.

품질, 비용, 안정성이라는 이 세 가지 결과—모두 동일한 3B 전문화 모델이 주도함—는 이 기사의 실증적 토대입니다. 이 결과들은 결합되어 단일 결과보다 더 강력한 실증적 근거를 형성합니다. 본 논문과 이 기사는 이 결과가 모든 기업용 AI 워크로드 (workload)에 일반화된다고 주장하지 않습니다. 우리가 주장하는 바는, 이 벤치마크에서 실험에 사용된 가장 작은 전문화 모델이 중요한 모든 차원에서 1위를 차지했다는 사실입니다.

이는 당연한 질문을 올바른 질문으로 만듭니다. 비교 대상 중 가장 작은 모델이 품질, 비용, 안정성 모두에서 승리했습니다. 파라미터 수 (Parameter count) 그 자체만으로는 이 결과를 설명할 수 없습니다. 자연스러운 후속 질문, 즉 이를 설명할 수 있는 변수를 식별하는 것이 다음 논의의 핵심입니다.

이 중 일부는 직관적입니다. 배포 태스크 (deployment task)에 집중된 30억 파라미터 (3-billion-parameter) 모델은, 다른 언어, 다른 코퍼스 (corpora), 다른 도메인 등 해당 태스크가 전혀 다루지 않을 자료에 파라미터가 분산된 훨씬 더 큰 모델보다 종종 더 나은 성능을 보입니다. 이 논문이 추가로 제시하는 점은 더 나아갑니다. 중요한 변수 중 하나는 파라미터가 어떻게 할당되었는지뿐만 아니라, 모델의 학습 이력 (training history)이 해당 태스크를 향해 어떻게 이동해 왔는지입니다. 보고된 실험에서 이 변수는 파라미터 수 (parameter count)를 포함하여 테스트된 그 어떤 변수보다 상대적 성능을 더 신뢰성 있게 예측했습니다.

논문은 이를 직접적으로 명명합니다. 논의 과정에서 저자들은 이 결과를 “문맥적 전문화 (contextual specialization)가 모델 파라미터 수만으로 결정되는 것보다 더 결정적일 수 있다”는 주장을 뒷받침하는 것으로 설명합니다. 모델이 최고의 성능을 낼지 여부를 결정한 것은 파라미터 수가 아니라, 모델의 학습 궤적 (training trajectory)이 배포 태스크에 얼마나 가깝게 이동했느냐였습니다. 더 넓은 분포 (wider distribution)에서 학습된 더 큰 모델이, 더 좁은 분포 (narrower distribution)에서 학습된 더 작은 모델보다 낮은 성적을 거두었습니다. 승리를 만들어낸 변수는 바로 더 좁은 학습이었습니다.

이는 조달 (procurement)의 기본 설정이 유도하는 방식과는 다른 모델 성능에 대한 사고방식입니다. 기본 설정 하에서는 파라미터 수가 지배적인 변수이며 학습 이력은 부차적인 수정 요인입니다. 논문이 제안하는 프레임워크 하에서는 우선순위가 뒤바뀝니다. 태스크에 대한 분포적 정렬 (distributional alignment)이 지배적인 변수가 됩니다. 파라미터 수는 주어진 정렬 단계가 얼마나 많은 이득을 창출하는지를 형성하는 여러 요인 중 하나가 됩니다.

전문화는 규모가 작은 것을 보완하기 위한 수단이 아닙니다. 그것은 정렬 (aligned)되기 위한 방법입니다.

수치들이 이러한 프레임워크를 뒷받침합니다. 3B Nanonets-OCR2 모델은 — 논문이 시작되기 전 이미 일반적인 OCR을 위해 전문화되어 있었으며 — 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 직접 선호 최적화 (Direct Preference Optimization, DPO)를 통해 대상 도메인에 맞춰 미세 조정되었고, 0.20%의 퇴화율 (degeneration rate)과 함께 0.921에 도달했습니다. 동일한 아키텍처를 가진 3B 범용 모델인 Qwen2.5-VL-3B를 동일한 절차로 실행했을 때는 1.41%의 퇴화율과 함께 0.793에 도달했습니다. 동일한 아키텍처, 동일한 훈련, 하지만 다른 결과입니다. 변수는 절차가 시작되기 전에 모델이 해당 작업(task)을 향해 이미 이동해 온 거리였습니다.

논문이 제안하는 프레임워크에 따른 분포 정렬 (Distributional alignment)은 OCR에만 국한된 것이 아닙니다. 이는 모델과 모델이 수행하도록 요청받은 작업 사이의 관계가 갖는 속성입니다. 이 프레임워크 관점에서 특정 기업의 워크로드에 어떤 모델이 가장 적합한가라는 질문은, 모델의 크기가 아니라 모델의 훈련 이력이 얼마나 정렬되어 있는가에 대한 질문이 됩니다.

분포 정렬이 가장 중요한 변수 중 하나라면, 다음 질문은 이것이 어떻게 축적되는가입니다. 논문의 증거는 이것이 단 한 번의 단계로 이루어지지 않음을 시사합니다. 위의 결과는 더 넓은 패턴의 한 사례임이 드러났습니다. 논문의 데이터에서 전문화는 이진 상태 (binary state)라기보다는, 모델이 한 번에 한 단계씩 이동할 수 있는 계층 구조 (hierarchy)처럼 작동합니다.

정렬 (Alignment)은 모델이 가졌거나 결여한 단일 요소가 아닙니다. 그것은 한 번에 한 단계씩 올라갈 수 있는 계층 구조상의 위치입니다. 범용 모델은 맨 아래에 위치하며, 일반 도메인 전문가 (더 넓은 범주의 작업을 위해 훈련된 모델)가 그 위에 위치하고, 도메인 전문가 (실제로 배포될 특정 작업을 위해 훈련된 모델)가 그 위에 위치합니다. 동일한 다운스트림 훈련 (downstream training)이라 할지라도 모델이 어느 단계에서 시작하느냐에 따라 다른 결과를 만들어냅니다.

이에 대한 논문의 증거는 구조적입니다. 두 쌍의 비교가 이를 직접적으로 보여줍니다.

70억 파라미터 (7-billion-parameter) 규모에서: 범용 모델인 Qwen2.5-VL-7B-Instruct를 기반으로 한 가장 우수한 미세 조정 (fine-tuned) 모델은 0.906의 성능과 1.01%의 퇴화율 (degeneration rate)을 기록했습니다. 반면, 이미 일반적인 OCR에 특화된 olmOCR-2–7B에 동일한 학습을 적용했을 때는 0.927의 성능과 0.40%의 퇴화율을 기록했습니다. 품질 이득은 약 2.3%였으며, 퇴화율은 거의 절반으로 감소했습니다. 동일한 아키텍처 (architecture), 동일한 데이터, 동일한 학습 파이프라인 (training pipeline)을 사용했습니다. 변수는 시작 지점이었습니다.

30억 파라미터 (3-billion-parameter) 규모에서 (앞서 소개한 비교): Qwen2.5-VL-3B는 0.793의 성능과 1.41%의 퇴화율로 종료되었고, Nanonets-OCR2–3B는 0.921의 성능과 0.20%의 퇴화율로 종료되었습니다. 동일한 절차, 동일한 아키텍처 클래스 (architecture class)를 사용했으나 시작 지점이 달랐습니다. 품질 이득은 약 16%였으며, 퇴화율은 약 7배 감소했습니다.

점진적 전문화 전략 (Progressive specialization strategy) 및 두 가지 학습 경로의 비교. 세 가지 전문화 단계 — 일반 범용 모델 (Level 1), 일반 도메인 OCR 전문가 (Level 2), 도메인 특화 OCR 전문가 (Level 3) — 와 향후 하위 도메인 전문화를 위한 예측된 Level N이 표시되어 있습니다.

Insights

전문화가 규모를 압도한다: 대부분의 AI 조달 결정에서 간과되는 전략적 변수

요약

핵심 포인트

댓글

AI 에이전트를 위한 NAT Traversal: 왜 멀티 에이전트 시스템은 서로를 찾지 못하는가

Ornith 397B가 진짜라는 생각이 들기 시작했습니다

OpenComputer | 에이전트를 위해 구축된 오픈 소스 컴퓨터

Ant Group, 4가지 크기의 DINO 계열 비전 백본인 LingBot-Vision 공개: 0.3B ViT-L이 NYUv2

AI 에이전트를 위한 NAT Traversal: 왜 멀티 에이전트 시스템은 서로를 찾지 못하는가

Ornith 397B가 진짜라는 생각이 들기 시작했습니다

OpenComputer | 에이전트를 위해 구축된 오픈 소스 컴퓨터

Ant Group, 4가지 크기의 DINO 계열 비전 백본인 LingBot-Vision 공개: 0.3B ViT-L이 NYUv2