Agent-Harness 스케일링 법칙: 성공을 예측하는 것은 단순 연산량이 아닌 피드백의 품질이다: 유효 피드백 연산 (EFC)
요약
에이전트의 성공률을 예측하는 새로운 스케일링 법칙인 유효 피드백 연산(EFC)을 소개합니다. 단순 연산량보다 피드백의 품질이 에이전트 성능 향상의 핵심임을 입증하며, 네 가지 품질 축을 통해 이를 정량화합니다.
핵심 포인트
- 에이전트 성능은 단순 연산량이 아닌 피드백 품질(EFC)에 의해 결정됨
- EFC는 정보성, 타당성, 비중복성, 보존성의 네 가지 축으로 측정됨
- EFC 기반 스케일링 법칙은 매우 높은 예측력(R²≈0.94–0.99)을 보임
- 단순 토큰 예산 증대보다 유용한 피드백 제공이 성공률 향상에 효과적임
무엇인가 (What): 새로운 agent-harness 스케일링 법칙 (scaling-law) 논문은 **유효 피드백 연산 (Effective Feedback Compute, EFC)**을 소개합니다. 이는 에이전트가 매 단계 harness로부터 받는 피드백의 품질을 바탕으로 에이전트가 작업을 완료할지 여부를 예측하는 단일 수치로, 네 가지 축을 기준으로 점수를 매기고 작업의 난이도에 따라 정규화됩니다.
왜 중요한가 (Why): 이 논문은 에이전트의 신뢰성 문제를 토큰 예산 (token-budget) 문제가 아닌 피드백 품질 문제로 재정의합니다. EFC를 기준으로 할 때 harness 실행 성공률은 명확한 법칙(R²≈0.94–0.99)을 따르는 반면, 단순 연산량 (raw compute)을 기준으로 할 때는 동일한 실행 결과가 거의 맞지 않습니다 (R²≈0.33–0.42).
이전 연구와의 차이 (vs prior): 이전의 신뢰성 연구는 단순 연산량 스케일링 (raw-compute scaling) — 더 많은 토큰, 더 많은 도구 호출 (tool calls), 더 큰 추론 예산 — 에 의존했습니다. 하지만 EFC는 비용과 도구 호출 횟수를 고정시킨 상태에서 피드백 품질만 높였을 때 성공률이 0.27에서 0.90으로 상승했음을 보여줌으로써, 해당 축이 거의 평탄함을 입증합니다.
비유하자면
단순히 교과서를 반복해서 읽는 대신, 날카로운 통찰력을 가진 튜터(tutor)와 함께 공부하는 학생과 같습니다.
동일한 시험, 동일한 학습 시간
│
┌─────────────┴──────────────┐
...
- agent harness = 매 라운드마다 교정 사항을 제공하는 학습 환경
- raw compute = 학습 시간 및 반복해서 읽은 페이지 수
- feedback quality = 튜터의 교정이 매번 얼마나 유용한가
- informativeness (정보성) = 튜터가 "더 열심히 공부해"라고 말하는 대신 정확한 실수를 지적함
- validity (타당성) = 교정이 오해를 불러일으키지 않고 실제로 정확함
- non-redundancy (비중복성) = 튜터가 이미 당신이 적어둔 노트를 반복하지 않음
- retention (보존성) = 당신이 다음 문제를 위해 교정 내용을 노트에 계속 유지함
- EFC = 흡수된 총 유용한 교정량 / 시험의 난이도
용어 사전
EFC — Effective Feedback Compute (유효 피드백 연산) — 이 논문의 핵심 지표입니다. harness가 에이전트 루프에 얼마나 많은 유용한 피드백 신호를 제공하는지를 측정하며, 네 가지 축(informativeness, validity, non-redundancy, retention)을 기준으로 점수를 매기고 작업 요구 사항에 따라 정규화합니다. 이는
Agent harness (에이전트 하네스) — 모델을 둘러싼 스캐폴딩 (scaffolding) — 즉, 도구 호출 (tool calls)을 실행하고, 결과를 관찰하며, 다음 관찰값을 모델에 다시 피드백하는 루프를 의미합니다. 하네스는 피드백을 전달하는 주체이므로, EFC의 성패가 결정되는 지점입니다. 이 내용은 Agent Engineering → Production Harness Architecture에서 다룹니다.
Scaling law (스케일링 법칙) — 하나의 양 (여기서는 EFC)으로부터 결과 (여기서는 작업 성공률)를 예측하는 경험적 곡선입니다. 타이트한 (tight) 스케일링 법칙은 곡선이 변동성의 대부분을 설명함을 의미하며, 느슨한 (loose) 법칙은 해당 양이 예측 도구로서 성능이 낮음을 의미합니다.
R² (적합도 품질) — 곡선이 성공률의 변동성을 설명하는 비율로, 0 (x축이 아무것도 예측하지 못함)에서 1 (모든 것을 예측함) 사이의 값을 가집니다. EFC는 R²≈0.94–0.99에 도달하는 반면, 단순 연산량 (raw-compute) 베이스라인은 0.33–0.42에 불과합니다. R²가 높을수록 더 나은 예측 도구임을 의미합니다.
The four feedback axes (네 가지 피드백 축) — Informativeness (정보성) (메시지가 오류의 위치를 특정하는가?), validity (유효성) (수정 사항이 실제로 올바른가?), non-redundancy (비중복성) (새로운 정보인가, 아니면 반복인가?), 그리고 retention (유지력) (에이전트가 나중에도 이를 기억하고 있는가?)입니다. EFC는 이 네 가지 모두를 통해 구축되므로, 하네스는 이 중 어느 하나라도 실패할 수 있습니다.
Task demand (작업 요구량) — 작업이 해결되기 위해 실제로 필요로 하는 교정 신호의 양입니다. EFC는 피드백 품질을 작업 요구량으로 나누어, 하네스를 쉬운 작업과 어려운 작업 간에 공정하게 비교할 수 있도록 합니다. 즉, 동일하게 명확한 피드백이라도 사소한 작업보다는 요구량이 많은 작업에서 더 높은 가치를 지닙니다.
뉴스. 2026년 5월 28일, 연구진들은 arXiv에 에이전트 하네스 스케일링 법칙(agent-harness scaling-law) 논문을 게시하며 **유효 피드백 연산 (Effective Feedback Compute, EFC)**을 소개했습니다. 이는 에이전트가 사용하는 연산량(compute)이 아니라, 하네스(harness)가 반환하는 피드백의 _품질(quality)_을 통해 에이전트의 성공을 예측하는 지표입니다. EFC를 기준으로 그래프를 그렸을 때, 하네스 실행 성공률은 깔끔한 스케일링 법칙(scaling law)을 따랐습니다 (데이터셋 전반에 걸쳐 R²≈0.94–0.99로 보고됨). 반면, 가공되지 않은 연산량(raw compute)을 기준으로 그렸을 때는 동일한 실행 결과가 거의 맞지 않았습니다 (R²≈0.33–0.42이며, 수동으로 구축한 다변량 베이스라인(multivariate baseline)을 사용해야만 ~0.88까지 상승함). 통제된 비교 실험 중 하나에서는 토큰 비용(token cost)과 도구 호출(tool calls)을 고정시킨 상태에서 피드백 품질을 높였을 때, 성공률이 0.27에서 0.90으로 상승했습니다.
같은 시험을 준비하는 두 학생을 상상해 보십시오. 첫 번째 학생은 교과서를 처음부터 끝까지 열 시간 동안 다시 읽으며 엄청난 노력을 페이지마다 쏟아붓습니다. 두 번째 학생은 날카로운 튜터와 함께 한 시간을 보냅니다. 이 튜터는 각 연습 문제를 푼 후, 추론이 잘못된 정확한 줄을 지목하고, 수정 사항이 맞는지 확인하며, 이미 적어둔 노트를 반복하지 않고, 다음번을 위해 여백에 기록해 두도록 합니다. 시험 당일, 두 번째 학생이 압도적인 차이로 승리합니다. 기록된 시간, 즉 **가공되지 않은 연산량 (raw compute)**은 성적에 대해 거의 아무것도 알려주지 않았습니다. 성적을 예측한 수치는 실제로 얼마나 많은 _유용한 교정(useful correction)_이 흡수되었는가였습니다. 이 논문은 그 두 번째 수치를 **유효 피드백 연산 (Effective Feedback Compute)**이라고 명명했으며, 에이전트 하네스(agent harnesses) 또한 이와 동일하게 작동한다고 주장합니다.
이 메커니즘은 x축을 재정의하는 것입니다. 토큰(tokens)이나 도구 호출(tool invocations)의 횟수를 세는 대신, EFC는 **하네스(harness)가 매 단계마다 피드백으로 제공하는 유용한 신호(useful signal)**를 측정합니다. 이 신호는 네 가지 축(정보성(informativeness), 타당성(validity), 비중복성(non-redundancy), 유지력(retention))을 기준으로 점수가 매겨지며, 이후 작업 요구량(task demand)에 따라 정규화(normalize)됩니다. 이를 통해 어려운 작업에서의 명확한 수정은 쉬운 작업에서의 수정보다 더 높은 가치를 갖게 됩니다. 이 정규화된 수치는 논문의 데이터셋 전반에 걸쳐 성공률을 설명하는 스케일링 법칙(scaling law)의 가로축이 됩니다. 에이전트를 구축하는 모든 이들을 위한 실질적인 해석은 다음과 같습니다. 레버(lever)는 당신의 추론 예산(reasoning budget)이 아니라, 당신의 하네스가 모든 도구 호출(tool call) 이후 무엇을 기록하고 반환하기로 선택하느냐에 달려 있습니다.
이것이 바로 원시 연산량(raw-compute) 축이 평탄해지는 이유입니다. 하네스는 저품질(low-quality) 피드백을 반환하는 데 엄청난 예산을 소모할 수 있습니다. 예를 들어, 스택 트레이스(stack trace)가 없는 짧은 exit code 1 (낮은 정보성), 실제로는 오탐(false positive)인 린터(linter) 경고 (낮은 타당성)
세 가지 변수를 고정합니다. 하나의 에이전트(Agent). 하나의 작업(Task). 동일한 예산 내에서의 두 번의 실행 — 각각 40회의 도구 호출(tool calls), 약 120K 토큰. 유일한 차이점은 하네스(harness)의 피드백 품질입니다. 실행 A(Run A)에서는 매 단계가 간결한 pass/fail 문자열을 반환합니다. 각 단계가 유용하고, 타당하며, 중복되지 않고, 유지되는 신호(signal)를 약 0.1 단위만큼 담고 있다고 가정하면, 40단계를 거쳐 에이전트는 40 × 0.1 = 4 단위를 축적합니다. 작업을 해결하는 데 대략 30 단위가 필요하므로, EFC = 4 / 30 ≈ 0.13이 됩니다. 이는 법칙의 곡선상 낮은 지점에 위치하며, 논문에서 범위의 하단에 보고된 0.27의 성공률 근처에 도달합니다. 실행 B(Run B)에서는 하네스가 매 단계마다 실패한 어설션(assertion), 문제가 된 입력값, 그리고 한 줄의 diff를 반환합니다. 이를 단계당 0.8 단위라고 하면, 40 × 0.8 = 32 단위가 되어 EFC = 32 / 30 ≈ 1.07이 됩니다. 이는 곡선상 높은 지점에 위치하며 성공률 0.90 근처까지 올라갑니다. 동일한 비용, 동일한 도구 호출 횟수임에도 유효 피드백(effective feedback)은 ~8배 더 많습니다 (이 예시적 분해는 논문의 0.27→0.90 및 R² 헤드라인 수치에 맞춰 조정되었습니다. 단계별 단위 값과 작업 요구 수치는 실제 측정된 상수가 아닌 예시를 위한 대용치입니다). 성공률의 도약이 헤드라인이라면, 호출당 수율(per-call yield)의 도약이 더 깊은 본질입니다.
| 스케일링 법칙(Scaling-law) x축 | 측정 항목 | 성공과의 적합도 (R²) |
|---|---|---|
| 원시 연산량 (Raw compute) | 소비된 토큰 + 도구 호출 | ~0.33–0.42 — 낮음 (논문) |
| ... |
솔직하게 언급해야 할 주의사항이 있습니다: 이것은 _논문 자체의 데이터셋에 대한 스케일링 법칙 적합(scaling-law fit)_이며, 높은 적합도는 강력한 상관관계를 의미할 뿐, 보장된 제어 노브(control knob)는 아닙니다. 또한 EFC는 토큰 예산보다 움직이기가 더 어렵습니다. "더 나은 피드백을 반환하라"는 것은 슬라이더(slider)처럼 조절할 수 있는 문제가 아니라 설계(design)의 문제이며, 네 가지 축을 신뢰성 있게 점수화하는 것 자체도 결코 쉽지 않습니다. 정직한 프레임워크는 EFC가 여러분에게 _척도(yardstick)_와 방향을 제공한다는 것입니다. 즉, 하네스가 반환하는 피드백을 계측(instrument)하고, 섀도우(shadow) 환경에서 후보 변경 사항들을 A/B 테스트하며, 피드백 품질을 지연 시간(latency) 및 비용과 함께 일급 시민(first-class) 지표로 취급하십시오. 정확한 계수(coefficients)가 여러분의 스택에도 그대로 전이될지는 가정할 것이 아니라 직접 측정해야 할 영역입니다.
더 자세히 알아보기: AI Agents → Evals & Diagnostics → Error analysis first
관련 설명 자료
- PushBench — Quantitative Goal Persistence (QGP) — 장기적 에이전트 신뢰성 (long-horizon agent reliability)을 위한 또 다른 하네스 수준 (harness-level) 지표
- FutureSim — harness-level agent eval — 모델만이 아닌 하네스 (harness) 자체를 평가하는 것이 왜 트렌드인지에 대하여
- Cursor Composer 2.5 — targeted textual feedback RL — 학습 단계의 유사 사례: 날카롭고 타겟팅된 교정 (targeted correction)이 무딘 롤아웃 종료 보상 (end-of-rollout reward)보다 효과적이다
FAQ
유효 피드백 연산 (Effective Feedback Compute, EFC)이란 무엇인가요?
EFC는 에이전트-하네스 (agent-harness)의 성공을 예측할 때, 소모된 원시 연산량 (raw compute)이 아니라 하네스가 매 단계 반환하는 피드백의 품질을 기준으로 삼는 지표입니다. EFC는 피드백을 정보성 (informativeness), 유효성 (validity), 비중복성 (non-redundancy), 유지력 (retention)이라는 네 가지 축으로 점수화하며, 쉬운 작업과 어려운 작업 간의 하네스를 공정하게 비교할 수 있도록 작업 요구도 (task demand)에 따라 정규화 (normalize)합니다. 논문에 따르면 EFC를 기준으로 성공률을 도식화했을 때 $R^2 \approx 0.94\text{--}0.99$의 스케일링 법칙 (scaling law)에 부합하며, 이는 원시 연산량 (raw compute)에 대한 부합도인 $\sim 0.33\text{--}0.42$보다 훨씬 더 정밀합니다.
왜 피드백 품질이 원시 연산량보다 성공을 더 잘 예측하나요?
하네스는 매우 큰 예산을 들여서도 저품질의 피드백—지나치게 짧은 pass/fail 문자열, 거짓 양성 (false-positive) 경고, 반복되는 메시지, 또는 에이전트가 이미 잊어버린 오류 등—을 반환할 수 있습니다. 이는 유용한 신호 (signal)를 거의 전달하지 못하는 실제 연산량이며, 따라서 원시 연산량 (raw-compute) 축은 거의 평탄하게 나타납니다. EFC는 실제로 에이전트에게 도달하는 신호를 포착하기 때문에 성공률과 훨씬 더 긴밀하게 일치합니다. 통제된 비교 실험에서 토큰 비용 (token cost)과 도구 호출 횟수 (tool-call counts)를 고정했을 때, 피드백 품질만을 높이는 것만으로 성공률을 0.27에서 0.90으로 끌어올릴 수 있었습니다.
실무에서 하네스의 EFC를 어떻게 개선하나요?
하네스(harness)가 반환하는 피드백을 일급 설계 요소(first-class design surface)로 취급하십시오. 즉, 도구 호출(tool-call) 결과가 오류를 국소화하도록 만들고(정보성, informativeness), 피드백을 반환하기 전에 신호가 올바른지 검증하며(유효성, validity), 반복되거나 오래된 메시지는 억제하고(비중복성, non-redundancy), 수정 사항을 유지하여 이후의 롤아웃(rollout) 과정에서도 살아남도록 하십시오(보존성, retention). EFC는 단순한 조절 슬라이더가 아니라 측정 가능한 척도이므로, 실무적인 루프는 반환되는 피드백을 계측(instrument)하고, 섀도 모드(shadow mode)에서 후보 변경 사항을 A/B 테스트하며, 지연 시간(latency) 및 비용과 함께 피드백 품질을 추적하는 것입니다.
원문 게시처: Learn AI Visually
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기