본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 21. 17:44

내 AI 에이전트가 8분 만에 Google의 할당량 제한에 부딪혔다. 36시간 후, Google은 제한을 3배로 늘렸다.

요약

Gemini 3.5 Flash로 업그레이드한 AI 코딩 에이전트가 이전 모델이 4주 동안 해결하지 못한 버그를 단 8분 만에 해결하며 압도적인 성능 향상을 보여주었습니다. 하지만 급격한 생산성 향상으로 인해 Google의 API 할당량 제한에 매우 빠르게 도달하는 '할당량 경제학'의 문제를 경험했습니다.

핵심 포인트

  • Gemini 3.5 Flash는 이전 모델(2.5 Pro/Flash 조합) 대비 변혁적인 수준의 코드 진단 및 수정 능력을 보여줌
  • 모델의 성능이 높아질수록 에이전트의 작업 속도가 빨라져 API 할당량을 소모하는 속도도 급격히 증가함
  • 비용 대비 유효 실행 시간 측면에서 Gemini 3.5 Flash는 타 모델(Claude, GPT 등)에 비해 매우 짧은 가용 시간을 기록함
  • 고성능 모델 도입 시 모델 품질 향상과 할당량 관리 사이의 트레이드오프를 고려해야 함

이 글은 Google I/O Writing Challenge를 위한 제출물입니다. 나의 Gemini 에이전트는 4주 동안 최하위에 머물렀습니다. 1,259개의 커밋. 32개 파일에 걸친 깨진 임포트 (imports). 스스로 생성할 수 있었던 데이터베이스 테이블에 대한 도움 요청. 끝없는 버그 루프. 그러다 나는 이를 Gemini 3.5 Flash로 업그레이드했습니다. 8분 만에, 이전 설정이 몇 주 동안 해결하지 못했던 문제들을 진단하고 수정했습니다. 그러고 나서 Google의 할당량 (quota) 벽에 부딪혔습니다. 이것은 그 이후에 일어난 일에 대한 이야기입니다.

문맥 (Context)
이 글은 나의 Gemini 3.5 Flash 업그레이드 시리즈의 파트 2입니다. 파트 1에서는 초기 업그레이드와 첫 번째 결과를 다룹니다. 나는 '$100 AI 스타트업 레이스 (The $100 AI Startup Race)'를 진행 중입니다. 7개의 AI 코딩 에이전트가 각각 100달러를 받고 12주 동안 자율적으로 실제 스타트업을 구축합니다. 인간의 코딩은 없습니다. 에이전트들은 크론 잡 (cron jobs)으로 실행되며, GitHub에 커밋하고, Vercel에 배포합니다.

5월 20일, Antigravity CLI를 통해 Gemini 에이전트를 2.5 Pro (프리미엄 세션)와 2.5 Flash (저렴한 세션)의 조합에서 단일 3.5 Flash 티어로 업그레이드한 후, 모델 품질은 놀라웠습니다. 하지만 할당량 경제학 (quota economics)은 잔혹했습니다.

실망 (5월 20일)
세션 1: 모델이 단 한 번의 커밋으로 32개의 깨진 API 파일을 수정했습니다: 임포트 (imports), Vercel 서버리스를 위한 bcrypt에서 bcryptjs로의 변경, Stripe 인스턴스화 (instantiation). 이전 모델이 4주 동안 하지 못했던 근본 원인 분석 (root cause analysis)이었습니다. 그러고 나서 5시간 할당량 벽에 부딪혔습니다. 8분간의 생산적인 작업이었습니다.

세션 2: --continue (컨텍스트 재로드 생략)를 사용하여, 이메일 라이브러리를 구축하고, 테스트를 작성하며, 인증 엔드포인트 (auth endpoints)를 수정했습니다. 15분 소요되었습니다. 그러고 나서 다시 5시간 할당량 제한이 걸렸습니다.

계산 결과: 두 세션이 주간 할당량의 40%를 소비했습니다. 예상 총합: 월 20달러의 Pro 플랜 기준으로 주당 약 68분입니다.

참고를 위해, 내 레이스의 다른 에이전트들이 비슷한 금액으로 얻는 결과는 다음과 같습니다 (이는 공식 제공업체의 제한이 아니라, 내 특정 설정에서 측정한 유효한 자율 실행 시간입니다):

에이전트플랜 비용주간 실행 시간
Claude$20/mo~7시간
Codex/GPT$20/mo~21시간
DeepSeek$25/mo~21시간
Gemini 3.5 Flash$20/mo~68분

레이스에서 최고의 모델 품질을 보여주었지만, 최악의 총 컴퓨팅 시간을 기록했습니다.

기존의 2.5 Flash/Pro 설정은 주당 약 28시간을 제공했지만, 그 28시간은 버그 루프 (bug loops) 외에는 아무것도 만들어내지 못했습니다. 이제 저는 실제로 작동하지만, 간신히 돌아가는 수준인 모델을 갖게 되었습니다.

역설 (The Paradox)
이 상황이 고통스러웠던 이유는 다음과 같습니다: 품질 향상은 실질적이었습니다. 점진적인 수준이 아니라 변혁적인 수준이었습니다.

기존 설정 (2.5 Pro + 2.5 Flash 조합, 주당 28시간):

  • 32개 파일에 걸쳐 깨진 임포트 (broken imports)가 포함된 코드를 작성함
  • "누락된 데이터베이스 테이블"에 대해 3건의 도움 요청을 제출함
  • 실제 문제를 스스로 진단하지 못함
  • 4주 동안 1,259개의 커밋을 기록하며 레이스에서 최하위를 차지함

새로운 모델 (3.5 Flash, 주당 68분):

  • 단 한 번의 시도로 근본 원인 진단 (누락된 테이블이 아니라 깨진 임포트였음)
  • 단일 커밋으로 32개 파일 모두 수정
  • 모의 데이터베이스 (mock database) 레이어를 구축하고 테스트 인프라를 변환함
  • 기존 모델이 몇 주 동안 만들어낸 것보다 23분 동안 만들어낸 결과물이 더 유용함

병목 현상 (bottleneck)이 지능에서 처리량 (throughput)으로 이동했습니다. 모델은 마침내 충분히 훌륭해졌습니다. 제약 사항은 접근 권한이었습니다.

자율 에이전트 (Autonomous Agents)가 할당량을 다르게 소모하는 이유
인간의 코딩에서 모델은 보조자 (assistant)입니다. 질문하고, 읽고, 생각하고, 수정하고, 나중에 다시 돌아옵니다. 자율 코딩 (autonomous coding)에서 모델은 런타임 (runtime)입니다. 모델은 오프라인에서 생각하기 위해 멈추지 않습니다. 모든 파일 검사, 모든 실패한 테스트, 모든 로그 확인, 모든 재시도, 모든 배포 검증이 추론 (inference)을 소비합니다.

인간 개발자의 세션은 다음과 같습니다: 질문, 생각, 수정, 다시 질문, 대기, 수동 테스트.
자율 에이전트의 세션은 다음과 같습니다: 계획, 검사, 수정, 테스트, 실패, 로그 검사, 수정, 재테스트, 배포, 검증, 반복.

이것은 경제 구조를 완전히 바꿉니다. 월 20달러의 구독료는 동일한 플랜에서 인간 개발자에게는 관대하게 느껴질 수 있지만, 자율 에이전트에게는 동시에 사용 불가능하게 느껴질 수 있습니다.

응답 (5월 21일, 05:25 UTC)
Google I/O가 끝난 지 36시간도 채 되지 않아.

새로운 할당량 (quota) 시스템이 적용된 지 불과 몇 시간 만에, 사용자들은 Reddit과 X에서 문제들을 보고하기 시작했습니다. 4개의 프롬프트 (prompts)가 5시간의 시간대를 통째로 태워버렸다는 점, 생성 실패가 할당량에 포함된다는 점, 그리고 이 상황을 "미끼 상품 후 바꿔치기 (bait and switch)"라고 부르는 스레드들이 올라왔습니다. 그러다 5월 21일 오전 5:25 (UTC)에 다음과 같은 소식이 전해졌습니다.

Varun Mohan (@_mohansolo): "업데이트 사항입니다. Antigravity의 모든 유료 티어 (paid tiers)에서 Gemini 모델의 속도 제한 (rate limits)을 3배로 늘리고, 모든 사용자의 이번 주 Gemini 할당량을 초기화합니다. 일부 사용자들이 속도 제한에 빠르게 도달했다는 점을 이해하며, 빠르게 대응하고자 했습니다. 앞으로 더 많은 소식이 있을 예정이니 즐겁게 빌드하세요!"

Logan Kilpatrick (@OfficialLoganK): "여러분들이 3.5 Flash의 성능을 더욱 마음껏 시험해 볼 수 있도록 Antigravity의 모든 티어에서 속도 제한을 방금 3배로 늘렸습니다. 즐겁게 사용하시고 피드백도 계속 보내주세요! :)"

그리고 Varun의 핵심적인 후속 발언이 있었습니다: "명확하지 않을 수 있어 덧붙이자면, 3배 증설은 영구적입니다."

내가 실제로 측정한 것

내 에이전트 (agent)의 크론 잡 (cron job)은 05:00 (UTC)에 실행되었으며, 아마도 05:25 (UTC)경에 적용된 할당량 증설 시점과 맞물렸을 것입니다. 결과는 다음과 같습니다:

세션 3 (05:00 UTC, 일부는 기존 할당량, 일부는 새 할당량 적용):
33분간의 생산적인 작업

  • 9회 실행, 588개 파일 변경
  • 생성된 모든 SEO 페이지의 도메인 전체 변경 ( localleads.pro 에서 localseogen.com 으로 )
  • Stripe 리다이렉트 (redirect) URL 수정
  • API 파일의 ES 모듈 (ES Module) 구문 수정
  • 전체 CRUD 작업이 가능한 모의 데이터베이스 레이어 ( db/mockDb.js ) 구축
  • lib/time-helpers.js 유틸리티 라이브러리 생성
  • signup, login, get-credits, assign, generate-seo-pages에 대한 테스트 스위트 (test suites) 작성
  • 새로운 모의 DB를 사용하도록 14개의 테스트 파일 리팩터링 (refactored)

세션 4 (07:07 UTC, 완전히 새 할당량 적용):
29분간의 생산적인 작업

  • 8회 실행, 34개 파일 변경
  • jest 호환성을 위해 모든 테스트 모의 객체 (test mocks)를 ESM ( .js )에서 CommonJS ( .cjs )로 변환
  • 혼합된 ESM/CJS 코드베이스를 위한 babel 및 jest 설정 수정
  • execute-outreach, forgot-password-request, generate-seo-pages, user-referral-data 테스트 리팩터링
  • .env.test 및 이메일 라이브러리 정리

각각 약 30분씩, 두 번의 연속된 세션이었습니다.

이 작업들은 5시간의 전체 시간 창(window)을 모두 사용했으므로, 5시간의 갱신 주기(refresh cycle)당 생산적인 실행 시간은 대략 50분 정도였습니다.

비교:
부스트 전 (5월 20일) | 부스트 후 (5월 21일)
5시간 창당 실행 시간: 8분 | ~50분
실질적 개선: ~4-5배 (Google은 3배라고 발표함) |
생산적 결과물: 42개 파일 수정 | 622개 파일 변경, 전체 테스트 인프라(test infra) 구축
주간 예상치: ~68분 | ~5시간 이상

Google은 3배를 발표했습니다. 하지만 제 환경에서의 자율적 에이전트 코딩(autonomous agentic coding) 측정값은 4-5배에 더 가까웠습니다. 이를 아직 보편적인 수치로 간주하지는 않겠습니다. 이러한 차이는 아마도 제 측정 방식이 주간 할당량(quota) 초기화, 속도 제한(rate limit) 증가, 그리고 서로 다른 프롬프트 조합(prompt mix)을 동시에 포착했기 때문일 것입니다.

인사이트 (The Insight)
AI 제공업체와 파워 유저(power users) 사이의 피드백 루프는 이제 몇 달이 아닌 몇 시간 단위로 측정됩니다.

  • 5월 19일 월요일: Google이 I/O에서 새로운 컴퓨팅 기반 할당량 시스템을 출시함
  • 5월 20일 화요일: 사용자들이 한계에 부딪히고, Reddit은 불만으로 가득 차며, 제 에이전트는 주당 68분을 할당받음
  • 5월 21일 수요일 오전 5:25: Google이 제한을 영구적으로 3배 늘리고 모든 사용자의 풀(pool)을 초기화함

저는 자신이 만든 문제에 대해 도움 요청을 제출하는 모델을 28시간 사용하는 것보다, 근본 원인을 진단하고 한 번의 실행으로 32개의 파일을 수정하며 28시간에 걸쳐 적절한 테스트 인프라(test infrastructure)를 구축하는 모델을 5시간 사용하는 쪽을 택하겠습니다.

다음 단계
Gemini 에이전트는 최하위에서 벗어나 실질적인 가능성을 갖게 되었습니다. 제품(에이전시를 위한 로컬 SEO 페이지 생성기인 LocalSEOGen)은 현재 다음과 같은 상태입니다:

  • 수정된 API 엔드포인트 (32개 파일)
  • 작동하는 인증 흐름 (auth flow)
  • 테스트 인프라 (mock DB, jest config, babel setup)
  • 도메인 마이그레이션 완료

다음 세션은 Vercel 배포가 실제로 요청을 처리하도록 만들고 첫 매출을 향해 나아가는 데 집중할 것입니다. 하지만 더 큰 시사점은 저의 경주에 관한 것이 아닙니다. 바로 이것입니다: 이번 주의 교훈은 "Gemini에 더 많은 할당량(quota)이 필요하다"가 아닙니다. 교훈은 자율 에이전트(autonomous agents)가 모델 액세스(model access)를 인프라(infrastructure)로 바꾼다는 것입니다. 인간 개발자에게 20달러 플랜의 Gemini 3.5 Flash는 엄청난 업그레이드입니다. 하지만 자율 코딩 에이전트에게는, 이제야 비로소 의미가 있을 만큼 충분히 유능하게 느껴지기 시작했습니다. 그리고 그것이 바로 할당량이 갑자기 중요해진 이유이기도 합니다.

aimadetools.com/race 에서 경주를 실시간으로 확인하세요. 7개의 에이전트, 각 100달러, 12주, 실제 스타트업들.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0