AISI: 고정된 연산 예산은 AI 에이전트의 능력을 60% 과소평가함

AISI는 표준 벤치마크가 연산 예산 (compute budgets)을 제한하여, 에이전트의 능력을 약 60% 과소평가한다는 것을 발견했습니다. 토큰이 10배 증가할 때 성공률은 약 25% 급증했습니다.

AISI는 다양한 연산 예산 (compute budgets)을 사용하여 7개의 벤치마크에서 프런티어 모델 (frontier models)을 테스트했습니다. 연구 결과: 고정된 예산 제한은 AI 에이전트가 실제로 얼마나 유능한지를 체계적으로 과소평가합니다.

주요 사실 (Key facts)

토큰 예산이 10배 증가할 때 소프트웨어 작업에서 성공률 약 25% 급증.
사이버 보안 (cybersecurity) 작업의 약 8%가 1,000만 개 이상의 토큰을 필요로 함.
수학 작업에서 최대 500만 토큰까지 약 22%의 이득 발생.
일주일간의 인간 작업은 수십억 개의 토큰 비용이 발생함.
프런티어 (frontier)의 발전 속도가 이전 측정치보다 약 60% 더 가파름.

영국의 AI Security Institute (AISI)는 다양한 연산 예산 (compute budgets)을 사용하여 7개의 벤치마크에서 프런티어 모델 (frontier models)을 테스트했습니다. 연구 결과: 고정된 예산 제한은 AI 에이전트가 실제로 얼마나 유능한지를 체계적으로 과소평가합니다.

AI 에이전트의 성능은 테스트 시간 연산 (test-time compute), 즉 에이전트가 작업을 수행하는 동안 사용할 수 있는 처리 능력의 양에 따라 상승하는 곡선입니다. 곡선이 여전히 상승하고 있을 때 예산을 삭감하면, 측정된 점수는 최대치가 아닌 최소치를 나타내게 됩니다. 이것이 바로 AISI 연구진이 최신 연구를 통해 증명하고자 했던 것입니다.

핵심 요약 (Key Takeaways)

AISI는 표준 벤치마크가 연산 예산 (compute budgets)을 제한하여, 에이전트의 능력을 약 60% 과소평가한다는 것을 발견했습니다.
토큰이 10배 증가할 때 성공률은 약 25% 급증했습니다.

더 많은 연산량, 전 분야에 걸친 더 나은 결과

이 효과는 모든 도메인에서 나타납니다. 사이버 보안 (cybersecurity) 분야에서는 작업의 약 8%가 예산이 1,000만 토큰을 초과할 때만 해결되었으며, 일부는 5,000만 토큰까지 필요했습니다. 최신 모델들은 1억 토큰 이상의 예산에서 훨씬 더 높은 점수를 기록했습니다.

소프트웨어 엔지니어링 작업 (TerminalBench 2.0, SWE-Bench Pro)의 경우, 토큰 예산이 100만 개에서 1,000만 개로 늘어났을 때 성공률이 약 25% 급증했습니다. 수학 및 학술 작업 (Humanity's Last Exam)의 경우, 500만 토큰 예산까지 약 22%의 이득이 있었습니다.

추가적인 연산 (Extra compute)이 모든 곳에서 동일하게 도움이 되는 것은 아닙니다. 의료 작업 벤치마크인 HealthBench의 경우, 모든 모델이 표준 예산 내에서 정체기 (plateau)에 도달했습니다. AISI에 따르면, 코드를 실행하거나 익스플로잇 (exploit)을 테스트하는 것과 같이 에이전트가 자신의 작업을 스스로 검증할 수 있는 영역에서 더 많은 연산이 가장 큰 도움이 됩니다. 하지만 피드백이 없거나 지연되는 곳에서는 거의 효과가 없습니다.

인간의 작업 시간이 에이전트에게 필요한 토큰 수를 예측한다

또 다른 발견은 인간 전문가가 작업을 수행하는 데 필요한 시간과 에이전트의 토큰 소비량 사이의 연관성을 보여줍니다. 연구 기관 METR의 소프트웨어 엔지니어링 작업 211개와 AISI의 사이버 작업 78개를 분석한 결과, 이 관계는 멱법칙 (power law)을 따릅니다. 1분짜리 작업은 에이전트에게 수천 개의 토큰을 소모하게 합니다. 1시간짜리 작업은 수백만 개의 토큰을, 1주일짜리 작업은 수십억 개의 토큰을 소모합니다.

Mit steigendem Token-Budget verbessert sich die Erfolgsrate über alle Aufgaben eines Benchmarks hinweg. Neuere Modelle (dunkelrot) profitieren stärker

따라서 고정된 평가 예산은 가장 길고 어려운 작업들을 잘라내게 됩니다. 실패는 에이전트의 기술이 부족해서가 아니라, 예산이 너무 타이트했음을 의미할 수 있습니다. AISI는 인간 전문가가 몇 시간 동안 수행해야 하는 사이버 작업인 "The Last Ones"를 예로 들었으며, 에이전트들은 표준 예산 하에서 이 작업에 실패했습니다.

The Decoder에 따르면, 이는 최전선 (frontier)에서의 실제 발전 속도가 이전 측정치들이 시사했던 것보다 약 60% 더 가파르다는 것을 의미합니다. 즉, 보고된 벤치마크 점수와 실제 세계의 에이전트 능력 사이의 격차는 좁혀지는 것이 아니라 오히려 벌어지고 있습니다.

주목해야 할 점

가변적 연산 예산 (variable compute budgets)을 표준 파라미터로 포함하는 AISI의 다음 평가 라운드를 주목하십시오. 만약 주요 연구소들 (OpenAI, Anthropic, Google)이 자신들의 벤치마크 제출 방식에 이 방법론을 채택한다면, 보고되는 능력 수치가 크게 상향 조정될 것이며, 그와 함께 규제 당국의 관심도 높아질 것으로 예상됩니다.

More compute, more AI performance. But where's the limit? | Image: AISI

출처: the-decoder.com

원래 게시일: gentic.news

Insights

AISI: 고정된 연산 예산은 AI 에이전트의 능력을 60% 과소평가함

요약

핵심 포인트

핵심 요약 (Key Takeaways)

더 많은 연산량, 전 분야에 걸친 더 나은 결과

인간의 작업 시간이 에이전트에게 필요한 토큰 수를 예측한다

주목해야 할 점

댓글

AURA: 구조를 먼저 협상하고, 변경 사항만 전송하라

PaperQuire v0.3.0 — AI 에이전트를 위한 PDF 도구

【2026년 최신·구현 포함】 AI 에이전트 프레임워크 철저 비교: LangChain·CrewAI·AutoGen·Claude Agent

단 500바이트만 사용하여 세계 지도 만들기

AURA: 구조를 먼저 협상하고, 변경 사항만 전송하라

PaperQuire v0.3.0 — AI 에이전트를 위한 PDF 도구

【2026년 최신·구현 포함】 AI 에이전트 프레임워크 철저 비교: LangChain·CrewAI·AutoGen·Claude Agent

단 500바이트만 사용하여 세계 지도 만들기