에이전트 모델은 얼마나 작아질 수 있는가? Nemotron의 임계치

대부분의 모델 비교는 어떤 모델이 가장 좋은지를 묻습니다. 하지만 이번 비교는 단 하나의 결과조차 만들어내지 못한 모델로부터 시작합니다.

우리는 NVIDIA의 오픈 웨이트 (open-weight) Nemotron 제품군을 30B Nano부터 120B Super까지, 실제 코딩 작업 벤치마크를 통해 테스트했습니다. 이는 예산이 한정된 인디 개발자나, 추론 비용 (inference cost)을 절감하고 데이터를 내부적으로 유지하려는 기업이 실행할 법한 모델들입니다.

주요 발견은 모델 크기가 단순히 품질을 조금 더 높이기 위해 돌리는 다이얼이 아니라, 하나의 임계치 (threshold)라는 점입니다. 특정 능력의 하한선 (floor) 아래에서는 모델이 에이전트 루프 (agent loop)를 전혀 구동할 수 없으며, 이것이 우리가 테스트한 가장 작은 변체인 Nano 12B가 점수를 매길 만한 결과물을 전혀 내놓지 못한 이유입니다.

하한선 위에서는 질문이 '어떤 모델이 가장 저렴한가'에서 '어떤 모델이 실제 작업에 필요한 기준을 통과하는가'로 바뀝니다. Nano 30B는 범위가 좁고 명확하게 정의된 작업을 위한 매우 저렴한 워크호스 (workhorse)인 반면, Super 120B는 까다로운 다단계 에이전트 작업 (multi-step agent work)을 견뎌낼 수 있는 크기입니다.

**에이전트 크기 하한선 (agent size floor)**이란 에이전트가 의존하는 실행-관찰-결정 (act-observe-decide) 루프를 신뢰성 있게 완료할 수 없는 최소한의 모델 용량을 의미합니다. 이 선 아래에서는 단순히 속도가 느리거나 서툰 에이전트가 되는 것이 아니라, 에이전트가 아닌 것이 됩니다. 즉, 작업을 읽고 몇 단계를 수행한 뒤 결코 수렴 (converge)하지 못하는 모델이 되는 것입니다. 모델을 선택하는 누구에게나, 이 사실은 질문을 "어떤 것이 더 저렴한가"에서 "어떤 것이 내 작업을 위한 하한선을 통과하는가"로 바꾸며, 그것이 가장 먼저 답해야 할 질문입니다.

수치가 도출된 배경

평가에 사용된 모든 시나리오는 공개된 스킬 (skill)과 연결된 실제 세계의 에이전트 작업이며, 두 가지 축을 기준으로 점수가 매겨집니다: 지시 이행 (instruction-following, 에이전트가 지시받은 대로, 지시받은 방식대로 수행하는가) 및 작업 완료 (task-completion, 목표에 도달하는가). 전체 점수는 지시 이행에 4, 작업 완료에 3의 가중치를 부여한 후 7로 나눈 값입니다. 각 작업은 스킬이 있을 때와 없을 때를 모두 실행하므로, 스킬로 인한 성능 향상 (lift)을 직접 확인할 수 있습니다. 작업과 스킬은 task-evals-for-skills 데이터셋에 공개되어 있으므로, 사용자가 직접 모든 시나리오를 검토할 수 있습니다.

이러한 설계는 의도적인 것입니다. 작업들은 공개된 스킬로부터 파생되었으므로, 인위적으로 만들어진 벤치마크 퍼즐이 아니라 팀들이 스킬을 작성하는 실제 업무를 반영합니다. 이는 낮은 점수가 의미하는 바를 변화시킵니다. 업무를 수행할 수 있는 모델의 경우, 남아있는 격차는 지시 이행, 즉 요청받은 방식대로 업무를 수행하는 문제입니다. 일반적인 업무에서도 목표에 도달하지 못하는 모델의 경우, 문제는 가이드 (guidance)보다 더 근본적인 데 있습니다.

두 모델 모두 OpenHands를 Bedrock에서 구동하는 동일한 방식으로 서빙되었으며, 동일한 심사위원에 의해 채점되었습니다. 이로 인해 각 모델에 대해 약 1,000개의 쌍을 이룬 시나리오가 남게 되었습니다. 아래의 모든 비교는 NVIDIA 내에서 동일한 조건 (apples-to-apples)으로 이루어졌으며, 프레임워크의 차이로 인한 혼란 변수 (cross-harness confound)나 조정해야 할 제공업체 가격 차이가 없습니다. 비용 (Cost)은 각 실행에서 측정된 토큰 사용량을 기반으로 산출된 작업당 해결 비용 (solve-only dollars per task)입니다. 두 모델 모두 루브릭 편향 (rubric-gaming) 플래그를 단 한 번도 발생시키지 않았습니다.

두 가지 크기, 두 개의 서로 다른 벽

주요 결과는 다음과 같습니다: 베이스라인(baseline) → 스킬 적용 시(with-skill).

클래스	목표 완료 (Goal completion)	지시 이행 (Instruction following)	전체 (Overall)	$/작업	해결 실패 제로 근접 (전체 < 25)
Super 120B	68.4 → 69.3	31.3 → 49.2	47.2 → 57.8	0.083	19% → 22%
Nano 30B	46.6 → 51.3	19.0 → 26.0	30.8 → 36.8	0.040	43% → 38%

두 가지 크기의 모델은 서로 다른 이유로 한계에 부딪혔습니다. Super 120B는 대부분의 작업을 완수할 수 있습니다. 목표 달성률 (Goal completion)은 69 근처에 머물며, 스킬 (skill)을 적용해도 겨우 0.9포인트가 추가되어 거의 변동이 없습니다. 이 모델이 어려워하는 부분은 정해진 방식대로 작업을 수행하는 것입니다. 스킬은 지시 이행 (instruction-following) 측면에서 17.9포인트를 추가해 줍니다. Super는 능력을 갖추고 있으며, 스킬이 제공하는 가이드에 의해 도움을 받습니다.

더 작은 모델인 Nano 30B는 정반대의 문제를 가지고 있습니다. 신뢰할 수 있는 완수 (Reliable completion)가 이 모델의 취약점입니다. 목표 달성률은 46.6이며, 베이스라인 시도의 43%가 0에 가까운 결과를 보입니다. 이 모델은 바닥(floor)에 매우 근접해 있어, 답변의 형식 (formatting)이 문제가 아니라 루프 (loop) 자체가 병목 현상 (bottleneck)이 됩니다.

이러한 평균값들 사이에는 숨겨진 패턴이 있으며, 이는 평균값만큼이나 중요합니다. 이러한 에이전트 (agents)들은 어중간한 실행 결과를 내놓는 경우가 드뭅니다. 대부분 거의 완벽한 결과가 나오거나, 거의 완전히 실패하거나 둘 중 하나입니다. 스킬을 사용할 때, Super는 작업의 40%에서 75점 이상의 점수를 얻고 22%에서 심하게 실패합니다. Nano는 이 양상이 뒤집힙니다. 작업의 단 11%에서만 최고점을 기록하고 38%에서 심하게 실패합니다. 규모 (Scale)는 에이전트를 완만하게 더 좋게 만드는 것이 아닙니다. 규모는 당신이 대부분의 시간 동안 얻게 될 두 가지 결과 중 어느 쪽을 얻을지를 변화시킵니다. 이것이 평균값이 개별 실행에 대한 대략적인 가이드일 뿐인 이유입니다. '대부분 훌륭함'과 '대부분 망가짐'의 평균은 실제 개별 실행에서 거의 발생하지 않는 숫자입니다.

이는 또한 Nano가 일률적으로 약한 것은 아니라는 의미이기도 합니다. 문서화된 API를 호출하거나 집중적인 문서 검색 (doc-retrieval) 스킬을 따르는 것과 같이 범위가 잘 정해진 작업에서는, 충분히 살펴볼 가치가 있을 만큼 사용 가능한 기준을 자주 통과합니다. Nano가 어려움을 겪는 부분은 더 길고 다단계인 작업 (multi-step work)입니다.

규모가 도움이 되는 곳과 스킬이 도움이 되는 곳

규모 (Scale)와 스킬 (skills)은 동일한 질문에 대한 경쟁적인 해답이 아닙니다. 이들은 서로 다른 역할을 수행하며, 평가 (eval)는 각각이 어디에서 효과를 발휘하는지 보여줍니다. 우리가 스스로에게 말해왔던 익숙한 이야기는, 관련 스킬이 저렴한 모델이 더 비싼 모델을 따라잡게 해줄 수 있다는 것입니다. 이는 한 가지 조건 하에 성립합니다. 즉, 모델이 애초에 스킬에 따라 행동할 수 있을 만큼 충분한 능력을 갖추고 있어야 한다는 것입니다.

먼저 규모(scale)가 하는 역할부터 시작하겠습니다. 30B에서 120B로 파라미터(parameters)가 4배 증가하면, 베이스라인(baseline)에서 총 16.4포인트를 얻을 수 있습니다. 이는 규모가 모델을 임계치(floor) 위로 끌어올려, 모델이 최소한 작업을 완수할 수 있는 수준으로 만들어준다는 것을 의미합니다. Nano 30B에 스킬(skill)을 추가하면 6.0포인트를 얻지만, 여전히 스킬이 전혀 없는 Super(47.2)보다 낮은 수준에 머뭅니다. 임계치 아래에서는 스킬이 기반으로 삼을 만한 충분한 역량이 아직 갖춰지지 않았기 때문입니다.

스킬은 승수(multiplier)이며, 임계치 이상의 모델에서는 이 승수가 매우 커질 수 있습니다. 동일한 스킬이 Super의 지시 이행(instruction following) 능력을 17.9포인트 상승시키는 반면, 목표 완수(goal completion) 능력은 거의 변화가 없습니다(0.9 상승). 이는 Super가 성장할 여지가 어디에 있었는지를 보여줍니다. Super는 이미 대부분의 작업을 완료할 수 있었기에, 스킬의 이득은 완수가 아닌 지시 이행 능력에서 나타난 것입니다. 스킬은 모델이 작업을 완수하는 데 도움을 줄 수도 있지만, Super는 단지 완수 능력의 여유(headroom)가 거의 남아있지 않았을 뿐입니다. 이 둘은 경쟁 관계가 아니라 순차적인 관계입니다. 먼저 모델을 임계치 위로 올린 다음, 스킬을 적용해야 비로소 막대한 수익(returns)을 얻을 수 있습니다.

이 효과는 스킬별로 더욱 뚜렷하게 나타나며, 유능한 모델에게 스킬이 얼마나 큰 역할을 할 수 있는지 보여줍니다. Brave Search 위치 스킬은 Super의 지시 이행 능력을 76포인트 증가시킵니다. Neon 인증(auth) 스킬은 68포인트를 증가시킵니다. 반면 Nano에서 동일한 스킬들은 각각 1포인트와 0포인트를 추가할 뿐인데, 이는 가이드(guidance)가 안착할 만한 역량이 아직 없기 때문입니다. 스킬을 그 스킬에 따라 행동할 수 있는 모델과 매칭하면 그 보상은 상당합니다.

단일 작업들도 동일한 이야기를 들려줍니다. stripe_ai_upgrade-stripe 시나리오에서, 해당 스킬은 Super를 완전한 실패에서 완벽한 100점으로 끌어올리지만, 동일한 작업에서 동일한 스킬을 사용한 Nano는 0점에 머뭅니다. 첫 번째 사례에서는 스킬이 작업을 수행하고 있는 반면, 두 번째 사례에서는 스킬이 기반으로 삼을 것이 아무것도 없습니다. 전체 세트 중에는 Super는 사용 가능한 기준(usable bar)을 통과하지만 Nano는 0점에 가까운 점수를 기록하는 작업이 163개나 있으며, 이는 스킬만으로는 메울 수 없는 격차의 종류입니다.

동일한 패턴이 노력(effort) 측면에서도 나타납니다. Nano 30B는 더 큰 모델(스킬 사용 시 29.9, Super는 24.5)보다 더 많은 턴(turn)을 소모하면서도 점수는 대략 절반 수준에 그칩니다. Nano의 턴은 두 가지 습관으로 나뉩니다. 완전히 실패할 때는 약 10턴 내외로 빠르게 포기해 버리고, 일단 참여하면 중간 정도의 결과를 내기 위해 30턴 이상을 끈질기게 붙들고 늘어집니다. 임계치(floor) 아래에서는 추가적인 가이드(guidance)가 턴 수와 비용을 증가시키지만(24.7에서 29.9로, 비용 25% 증가), 그에 상응하는 이득은 없습니다. 모델이 아직 가이드를 효율적으로 수행할 수 없기 때문입니다. 임계치 위에서는 모델이 스킬의 지침을 활용하여 작동하지만, 임계치 아래에서는 역량(capability)이 먼저 따라와야 합니다.

저렴한 모델이 반드시 더 나은 가치를 제공하지 않을 때

여기서 대부분의 팀이 셀프 호스팅(self-hosting) 결정을 내릴 때 가지고 들어오는 직관이 깨집니다. Nano의 작업당 비용은 Super의 절반 수준인 $0.040 대 $0.083이므로, 자연스러운 결론은 Nano가 더 나은 가치를 제공하며 Super는 반드시 필요한 경우에만 선택하는 옵션이라는 것입니다.

작업당 가격은 한 가지를 간과하고 있습니다. 바로 실패(failures)입니다. 스킬을 사용할 때 Nano는 작업의 38%에서 0점에 가까운 결과를 내놓는 반면, Super는 22%에 불과합니다. 이 실패 사례 하나하나가 모두 재시도(retry)로 이어지며, 재시도는 작업당 가격에는 나타나지 않는 비용을 발생시킵니다. 이를 계산해 보면 작업당 가격이 더 저렴해 보였던 모델이, 실제로 사용할 수 있는 결과물 하나당 비용은 더 높게 나타날 수 있습니다.

달러당 점수(Points-per-dollar) 측면에서는 Nano가 928점으로 Super의 694점보다 저렴한 상품처럼 보입니다. 하지만 이 수치는 품질이 아닌 저렴함에만 보상을 주는 지표입니다. 정기적으로 잘못된 행동을 하더라도 매우 저렴한 모델이라면 여전히 이 지표에서 높은 점수를 받을 것입니다. 따라서 먼저 필요한 품질을 결정한 다음, 가격을 비교하십시오.

비용은 결정 요소의 절반일 뿐입니다. 나머지 절반은 적합성(fit)입니다. Nano는 신뢰할 수 있는 범위가 명확한(well-scoped) 작업에서 낮은 가격의 가치를 증명하는 반면, 더 길고 다단계(multi-step)인 작업에서는 Super에 비용을 지불할 가치가 있습니다. 가치는 단순히 가장 저렴한 모델을 지목하는 것이 아니라, 각 모델을 그 모델이 수행할 수 있는 작업에 맞추는 데 있습니다.

어떤 크기가 귀하의 작업에 적합한가?

이러한 발견은 하나의 간단한 경험 법칙(rule of thumb)으로 귀결됩니다. 작업 범위가 좁고 명확할 때, 즉 문서화된 API 호출, 집중된 문서 검색(doc-retrieval) 작업, 또는 단일 파일 변경과 같이 적절한 결과물이 나오거나 저렴한 재시도(retry)가 허용되는 대량의 작업을 수행할 때는 Nano 30B를 선택하십시오. 이 모델은 작업당 비용이 절반 수준이며 소비자용 하드웨어에 자체 호스팅(self-host)할 수 있을 만큼 작기 때문에, 진정한 실무용 모델(workhorse)이 됩니다.

작업이 다단계(multi-step)이거나 더 긴 호흡(longer-horizon)을 필요로 할 때, 결과물이 첫 시도에 바로 사용 가능해야 할 때, 또는 들어오는 작업의 형태를 예측할 수 없을 때는 Super 120B를 선택하십시오. 이 모델은 실제 에이전트 작업의 최소 기준(floor)을 안정적으로 통과하는 첫 번째 오픈 웨이트(open-weight) 규모이며, 프로덕션(production) 단계로 넘어가려는 모든 작업의 시작점이 되는 모델입니다.

당신의 최소 기준(floor) 찾기

이 연구가 존재할 수 있는 이유는 NVIDIA가 자체 호스팅이 가능한 오픈 웨이트(open-weight) 규모의 사다리(ladder)를 제공하기 때문입니다. 이를 통해 모델을 작업에 맞출 수 있으며, 더 작은 모델이 품질 기준(quality floor)을 통과하지 못할 때만 단계적으로 올려갈 수 있습니다. 여기서 가져가야 할 핵심 프레임워크는 서류상 가장 빠르거나 저렴한 모델이 아니라, '사용 가능한 가장 작은 에이전트'를 찾는 것입니다.

따라서 모델을 선택할 때 가격이나 파라미터(parameter) 수부터 시작하지 마십시오. 청구서상으로는 저렴해 보이는 모델이 실제로는 조용히 비용을 발생시키고 있는 모델일 수 있습니다. 실제로 수행해야 하는 작업을 가져와서, 그 작업이 통과해야 할 품질 기준을 설정한 다음, 어떤 모델이 이를 성공적으로 통과하는지 측정하십시오. 그것이 당신에게 실제로 무엇이 효과적인지를 예측해 줄 비교 방식이며, 모델을 확정하기 전에 실행해 볼 가치가 있는 과정입니다. 결정이 내려지면, Tessl Registry에서 나머지 과정을 완성해 줄 기술들을 찾을 수 있습니다.