ByteDance 새로운 Scaling Law 발견 — AI Agent는 실제 사용될수록 더 똑똑해진다

Nokka (นก-กา) 작성 | 2026년 7월 5일

TL;DR — 바쁜 분들을 위한 요약

ByteDance Seed 연구팀은 새로운 형태의 Scaling Law를 공개했습니다. AI Agent가 실제 환경에서 더 오래 작업할수록, 더 체계적으로 학습하고 능력이 향상된다는 것입니다.

학습 속도가 3개월마다 두 배로 증가합니다 [1]. 이 발견은 134개의 태스크 (Task), 6개의 카테고리를 통해 38,000시간 이상의 AI Agent와 실제 환경 간의 상호작용을 분석한 결과에서 도출되었습니다 [2].

이는 Pre-training Scaling Law가 한계에 다다르고 있는 AI 업계에 매우 반가운 소식입니다.

기존의 Scaling Law는 막다른 길에 다다르고 있다

GPT-3부터 현재까지 AI를 이끌어온 Scaling Law는 Pre-training Scaling입니다. 파라미터 (Parameter)를 늘리고 데이터를 더 많이 투입할수록 더 뛰어난 모델을 얻을 수 있다는 원리입니다.

하지만 이 방식은 문제에 직면해 있습니다: 고품질 데이터가 고갈되기 시작했고, 훈련 비용은 급증하고 있으며, 수익 체감 (diminishing returns) 현상이 나타나고 있습니다 [3].

업계의 많은 이들이 "그다음은 무엇인가?"라는 질문을 던지기 시작했습니다. 모델을 더 크게 만들고 더 많은 데이터를 주입하는 것이 더 이상 더 나은 결과를 가져다주지 못한다면, AI의 미래는 어디로 향할까요?

ByteDance Seed가 그 질문에 답하다

ByteDance Seed 연구팀 (TikTok 모기업의 핵심 AI 팀)은 2026년 7월 2일에 EdgeBench라는 이름의 연구 논문을 발표했습니다 [2].

이 연구는 AI가 무엇을 "아는가"를 측정하는 것이 아니라, AI가 실제 환경으로부터 얼마나 잘 "학습하는가"를 측정하는 새로운 벤치마크 (Benchmark)를 구축했습니다.

EdgeBench란 무엇인가

EdgeBench는 실제 세계의 **134개 태스크 (Task)**로 구성되어 있으며, 다음과 같은 6개 카테고리로 나뉩니다: 과학 및 머신러닝 (Machine Learning), 시스템 및 소프트웨어 엔지니어링 (Software Engineering), 최적화 (Optimization), 지식 (Knowledge), 형식적 작업 (Formal), 그리고 게임 (Game) [4].

각 태스크는 12~72시간 동안 연속적으로 수행됩니다. 이는 일반적인 벤치마크보다 몇 배나 더 긴 시간입니다. 연구팀은 비교 기준으로 사용하기 위해 숙련된 인간이 각 태스크를 수행하는 데 걸리는 평균 시간을 57.2시간으로 기록했습니다 [2].

실제 태스크 예시

EdgeBench의 태스크는 "Todo 앱 만들기"와 같은 쉬운 문제가 아니라, 높은 수준의 전문성을 요구하는 작업들입니다:

지질 모델 구축 (Geological Modeling) — 분산된 관측정으로부터 지하수 오염 데이터를 분석하여 모델을 구축하고, 관측 네트워크를 최적화하여 효율성을 극대화합니다 [2]

배터리 수명 예측 (Battery Life Prediction) — 변화하는 사용 조건 하에서 배터리의 건강 상태(State of Health)와 잔여 수명을 예측합니다 [2]

중력파 신호 품질 개선 (Gravitational Wave Signal Quality Improvement) — LIGO의 중력파 데이터에서 노이즈를 제거하여 탐지 정확도를 높입니다 [2]

게임 체인저가 될 결과물

다양한 AI Agent 모델 — Claude Opus 4.8, GPT 5.5, GPT 5.4, GLM 5.1, DeepSeek V4 Pro [1] — 의 38,000시간 이상의 학습 곡선 (Learning Curve)을 분석한 결과, ByteDance 팀은 명확한 패턴을 발견했습니다:

1. 학습 곡선 (Learning Curve)은 Log-Sigmoid 형태를 띱니다

**학습 곡선 (Learning Curve)**은 시간이 지남에 따라 AI가 얼마나 더 똑똑해지는지를 보여주는 그래프입니다. Log-Sigmoid는 초기에는 느리게 시작하여 점차 가속화된 후, 다시 점차 안정화되는 형태의 그래프 모양을 의미합니다.

AI Agent의 성능 향상은 무작위로 일어나는 것이 아니라, 정밀한 수학적 방정식(R² = 0.998)을 따릅니다 [5]. 여기서 R²은 방정식이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 값으로, 1에 가까울수록 정확도가 높습니다.

이는 Agent를 얼마나 오래 사용했을 때 얼마나 더 똑똑해질지를 예측할 수 있음을 의미합니다.

2. 학습 속도가 3개월마다 두 배씩 증가합니다

실제 환경에서 작동하는 AI Agent는 매 분기마다 학습 및 개선 속도가 두 배씩 빨라집니다 [1]. 이는 대략적인 개선이 아니라 반복적으로 측정 가능한 패턴입니다.

3. 배포 후 학습 (Post-deployment Learning) ≠ 사전 학습 (Pre-training)

**배포 후 스케일링 (Post-deployment Scaling)**은 AI가 실험실에서 학습되는 것이 아니라, 실제 환경에 배포 (deploy)된 이후에 발생하는 학습을 의미합니다.

배포 후 학습은 사전 학습 (pre-training)을 대체하는 것이 아니라, 별도로 추가되는 또 다른 차원의 학습입니다 [3]. Agent가 더 많이 사용될수록, 피드백 (feedback)과 실제 환경으로부터 학습할 기회가 더 많아집니다.

비교: 사전 학습 스케일링 (Pre-training Scaling) vs 배포 후 스케일링 (Post-deployment Scaling)

차원	사전 학습 스케일링 (Pre-training Scaling)	배포 후 스케일링 (Post-deployment Scaling, EdgeBench)
메커니즘	파라미터(Parameter) + 데이터 증가	실제 피드백으로부터 학습
...

왜 중요한가

이 발견은 AI 업계의 경제 방정식을 "누가 더 많은 GPU와 데이터를 보유하고 있는가"에서 "누가 최고의 배포(distribution) 및 배포(deployment) 시스템을 갖추고 있는가"로 변화시킵니다 [1].

AI Agent가 실제 사용됨에 따라 점점 더 똑똑해진다면, 단순히 막대한 계산 능력을 가진 기업이 아니라, 수많은 사용자에게 접근할 수 있고 우수한 인프라(infrastructure)를 갖춘 기업이 우위를 점하게 될 것입니다.

AI Agent를 사용하는 개발자와 기업에게 이는 다음과 같은 의미를 갖습니다: AI를 실제 워크플로우(workflow)에 더 많이 통합할수록, 모델 제조사가 업그레이드를 해줄 때까지 기다릴 필요 없이 귀하의 AI는 자동으로 점점 더 똑똑해질 것입니다.

주의 사항

연구 결과는 흥미롭지만, 몇 가지 주의할 점이 있습니다:

이 연구는 중국 기업인 ByteDance에 의해 수행되었습니다. DeepMind나 OpenAI와 같은 독립적인 연구 팀이 이 결과를 재현(replicate)할 수 있는지 확인될 때까지 기다려야 합니다.
134개의 태스크(task)는 모든 실제 사용 사례를 포괄하지 못할 수 있습니다. 대부분의 작업은 과학 및 공학 분야이며, 금융, 의료 또는 법률 분야의 작업은 포함되지 않았습니다.
이 스케일링 법칙(Scaling Law)이 얼마나 오래 지속될지, 또는 Agent가 특정 숙련도 수준에 도달했을 때 정체기(plateau)에 접어들지 여부는 아직 불분명합니다 [5].
Stanford와 MIT의 이전 연구들은 AI Agent가 테스트된 특정 환경에 과적합(overfit)될 수 있음을 시사합니다. 즉, 특정 작업에는 능숙할 수 있지만 다른 작업으로 기술을 전이(transfer skill)하는 데는 어려움을 겪을 수 있음을 의미합니다.

요약

ByteDance Seed는 AI Agent가 실제 세계에서 더 많이 사용될수록 체계적으로 더 똑똑해진다는 것을 발견했습니다. 학습 속도는 3개월마다 두 배로 증가합니다. 이는 사전 학습(Pre-training) 스케일링 법칙(Scaling Law)이 한계에 다다르기 시작한 이후, 차세대 AI를 이끌 새로운 스케일링 법칙(Scaling Law)이 될 수 있습니다.

비즈니스 운영자와 개발자들에게: 이제 AI Agent를 실험실에서만 테스트하는 것이 아니라 실제 업무에 배포(deploy)하기 시작할 때입니다. 더 많이 사용할수록 더 똑똑해지기 때문입니다.

👉 AI News Digest를 https://dev.to/sarantoon/series에서 확인하세요 — Nokka 프로필을 팔로우하여 새로운 기사가 올라올 때마다 업데이트를 받으세요.

이 기사는 인간의 통제 및 품질 검토 하에 Hermes Agent를 통해 AI (deepseek-v4-flash)가 작성했습니다 — Nokka (Nok-ka)

참고 문헌

[1] Crypto Briefing, "ByteDance가 현재 한계를 넘어 AI 붐을 지속할 수 있는 새로운 스케일링 법칙 발견," 2026년 7월 4일 — https://cryptobriefing.com/bytedance-new-scaling-law-ai-agents/
[2] ByteDance Seed, "EdgeBench: 실제 환경으로부터의 학습 스케일링 법칙 공개," 2026년 7월 2일 — https://edge-bench.org/
[3] SCMP, "중국의 ByteDance가 AI 붐을 지속할 수 있는 새로운 스케일링 법칙 발견," 2026년 7월 4일 — https://www.scmp.com/tech/big-tech/article/3359373/chinas-bytedance-discovers-new-scaling-law-could-sustain-ai-boom
[4] ByteDance Seed, "EdgeBench 논문," 2026년 7월 2일 — https://edge-bench.org/paper.pdf
[5] AI Weekly, "ByteDance의 EdgeBench가 12시간 동안의 AI 에이전트 진행 상황 측정," 2026년 7월 4일 — https://aiweekly.co/alerts/bytedances-edgebench-measures-12-hour-ai-agent-progress

Insights

ByteDance 새로운 Scaling Law 발견 — AI Agent는 실제 사용될수록 더 똑똑해진다

요약

핵심 포인트

ByteDance 새로운 Scaling Law 발견 — AI Agent는 실제 사용될수록 더 똑똑해진다

TL;DR — 바쁜 분들을 위한 요약

기존의 Scaling Law는 막다른 길에 다다르고 있다

ByteDance Seed가 그 질문에 답하다

EdgeBench란 무엇인가

실제 태스크 예시

게임 체인저가 될 결과물

1. 학습 곡선 (Learning Curve)은 Log-Sigmoid 형태를 띱니다

2. 학습 속도가 3개월마다 두 배씩 증가합니다

3. 배포 후 학습 (Post-deployment Learning) ≠ 사전 학습 (Pre-training)

비교: 사전 학습 스케일링 (Pre-training Scaling) vs 배포 후 스케일링 (Post-deployment Scaling)

왜 중요한가

주의 사항

요약

참고 문헌

참고 문헌

댓글

Claude Code의 기억 설계 — CLAUDE.md · rules · 자동 메모리 배치 결정 가이드

문서 채팅 앱 만들기: RAG가 실제로 작동하는 방식

Djinn Stealer, ChocoPoC, 그리고 개발자가 가장 먼저 보안을 강화해야 할 사항

새로운 Avalon 멀웨어 프레임워크, CrownX 랜섬웨어 기능 탑재

문서 채팅 앱 만들기: RAG가 실제로 작동하는 방식

Djinn Stealer, ChocoPoC, 그리고 개발자가 가장 먼저 보안을 강화해야 할 사항

새로운 Avalon 멀웨어 프레임워크, CrownX 랜섬웨어 기능 탑재