Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화
요약
다중 에이전트 시스템을 활용한 소프트웨어 엔지니어링 과정에서의 토큰 소비 구조와 비용 효율성을 분석합니다. 입력 토큰이 비용의 대부분을 차지하는 현상을 지적하며, 캐싱 전략과 동적 테스트를 통한 최적화 방안을 논의합니다.
핵심 포인트
- 에이전트 시스템에서 입력 토큰이 소비의 압도적 비중을 차지함
- 캐싱과 압축 단계를 활용한 토큰 비용 절감 필요성
- 에이전트의 안정성을 위한 피드백 루프 및 자동 수정 라이브러리 구축
- 비용 효율을 위한 동적 테스트 및 요구사항 명시의 중요성
개인용으로 다중 에이전트 시스템을 만들어 쓰고 있음
문제를 주면 먼저 빠르고 저렴한 모델이 질문을 던지고, 그 답을 바탕으로 입력 프롬프트를 다듬음
이후 문제를 섹션별로 나누고 최종 심판이 결론을 내리거나, 여러 에이전트가 토론한 뒤 심판이 요약하는 식의 전략을 고름
가장 좋은 방식은 내가 all angles라고 부르는 것으로, 여러 전략을 병렬로 돌리고 최종 메타 심판이 응답을 종합함
최근 추가한 기능 중 가장 유용한 부분은 각 전략 사이의 편차를 볼 수 있는 화면임
주거지 탐색, 학교, 가족 문제 같은 생활 이슈에 쓰고 있음
비용을 언급했는데, 문제 유형별 대략적인 비용 구조를 더 설명해 줄 수 있는지 궁금함
어떤 전략을 쓰는지, 전략별 비용이 어떻게 달라지는지도 알고 싶음
어떤 실행 하네스를 쓰는지, 그리고 어떤 LLM을 쓰는지 궁금함
나도 비슷한 시스템을 만들었지만 프롬프트의 탐색적 개선보다는 피드백 루프에 더 초점을 맞췄음
사이버네틱스식으로, 결정적 검사와 자동 수정 라이브러리를 계속 키워 프롬프트 출력의 안정성을 유지하는 방식임
그 라이브러리로 처리되지 않는 “문제”는 프로세스를 운전하는 사람에게 드러나게 함
한 달은 GitHub Copilot을 끊김 없이 충분히 썼는데, 가격 변경 뒤 다음 달에는 이틀 만에 토큰을 다 써버렸음
이런 급격한 변화는 토큰 가격이 임의적이고, AI 사업이 빠르게 돈이 떨어지고 있다는 신호처럼 보임
오히려 최대 기업가치나 IPO를 밀어붙인 결과에 가깝다고 봄
추론 수익률이 70%를 넘는다는 소문도 있음
SpaceX를 예로 들면 지난 6개월 동안 소비자 제품 가격을 전반적으로 올렸지만, Alphabet과 Anthropic이 합쳐 매달 20억 달러 이상을 내고 있으니 돈이 부족한 건 아님
Microsoft/GitHub는 남의 제품을 다시 포장하던 입장이라 여기서 손해를 본 셈임
GitHub 사례는 최근 가격 정책 변경이 있었기 때문에 유독 급격하게 보이는 예외에 가까움
일반적으로 가격은 여러 기반 요인에 따라 정해지며, 그 자체가 임의적이라는 뜻은 아님
예컨대 GitHub 임원들이 난수 생성기로 토큰 가격을 정했다면 그게 임의적인 가격 책정임
“입력 토큰이 평균 53.9%로 소비의 가장 큰 비중을 차지한다”는 부분이 있는데, 내 사용량에서는 비율이 대략 10:1 정도임
소비되는 토큰의 압도적 다수가 입력 쪽이고, 에이전트가 코드 한 줄을 고치려고 백만 토큰을 읽는 일이 자주 있음
1:1에 가깝거나 출력 쪽이 더 크다면 에이전트에 문제가 있거나 코드베이스가 새롭거나 비어 있는 경우라고 봄
에이전트가 코드베이스를 탐색하고 문서화하기 쉽게 AST, 언어 서버 같은 더 나은 도구를 제공해 봤는지 궁금함
캐시되지 않은 백만 토큰은 꽤 많아 보임
입력 토큰이 그 정도로 비용을 지배한다면, 캐싱을 더 잘 활용하는 것만으로도 큰 개선이 가능하다는 뜻임
모델에게 관련 코드 부분을 덤프한 1회성 “압축” 단계를 시키고, 그 결과를 많은 하위 에이전트 호출의 캐시된 접두부로 쓰는 식이 가능함
코딩에 에이전트를 써보면 단위 테스트는 수천 개씩 쓰고 싶어 하지만, 동적으로 테스트하려는 성향은 약함
의미적으로 망가진 테스트를 작성하고 디버깅하느라 토큰을 엄청 태우는 것도 좋아함
단위 테스트도 동적 테스트의 한 종류임
정적 테스트는 린트나 타입 검사 같은 것임
단위 테스트 말고 다른 종류의 동적 테스트를 원한다면, 계획이나 PRD 단계에서 요구사항으로 명시해 봤는지 궁금함
AWS도 단순한 요구사항에 대해 과금 가능한 AWS 서비스를 최대한 많이 엮는 복잡한 Lambda 해법을 강하게 밀어붙임
그들의 이해관계가 항상 당신의 이해관계와 일치하지는 않음
이 경우에는 쓸모없는 작업에 불필요하게 돈을 쓰게 만들고 싶어 하는 것임
“토큰”이라는 완곡어법도 이제 그만 쓰는 편이 좋겠음
더 많은 동적 테스트를 하라고 지시하면 됨
동적 테스트가 어느 정도 꺼려지는 이유는 속도를 늦추고, 예상하지 못한 곳에서 소프트웨어를 멈출 수 있기 때문이라고 봄
이건 항공사 보상 마일리지와 비슷하고, 기업 입장에서는 베어메탈 GPU 시간을 빌리는 것보다 이점이 없음
더 많은 하드웨어 회사에서 저렴한 NPU가 나오고, 모델 크기도 더 최적화되면 이 끔찍한 시기가 곧 끝나길 바람
대부분의 AI 수요가 온프레미스나 온디바이스 하드웨어와 모델로 충족될 수 있게 되면, 그런 운영 비용을 들이는 초대형 연산 농장과 모델이 무엇에 유용할지 궁금함
아마 남는 고객은 대형 정부뿐일 테고, 결국 AI 카르텔이 투자한 수십억 달러를 납세자가 내게 될 것임
예전에는 Google 같은 회사들이 인프라를 얼마나 잘 최적화할 수 있는지를 보고 엔지니어를 뽑았음
곧 회사들이 엔지니어의 AI 토큰 효율 최적화 능력을 보게 될지도 모름
그건 토큰이 계속 의미 있는 비용으로 남는다는 가정이 필요함
개발자들이 더 많은 토큰을 쓸 용도를 찾아내는 속도가 가격 하락 속도만큼 빠를지는 확신하기 어려움
회사의 토큰 비용을 0으로 낮추는 방법을 알고 있음
토큰을 인터넷처럼 유틸리티 비용으로 취급하고 엔지니어가 직접 내게 하면 됨
재미있는 곁가지로, 새 제품 후보를 검토하는 회의에 있었는데 잘 진행되다가 그 제품에 AI를 추가했다는 화면이 나왔음
당연히 AI가 붙어 있었고, 매우 억지로 끼워 넣은 티가 났음
그 티가 난 부분 중 하나는 각 질의에 몇 토큰이 들었는지를 보여주는 열이 있었다는 점임
토큰 비용은 누가 내냐고 물었더니 라이선스에 포함된다고 했고, 예산 한도가 있는지 아니면 무제한인지 물었더니 좋은 질문이라며 확인해 보겠다고 했음
내가 물은 이유는 방금 보인 단순한 장치 관련 질의 하나가 25만 토큰을 태웠기 때문임
그때 상대 측 임원 중 한 명이 “우리가 이걸 고객에게 왜 보여주고 있지?”라고 큰소리로 말하는 게 들렸고, 우리는 꽤 웃었음
여기서 배운 점은 무엇에든 AI를 추가하는 비용이 제대로 계산되지 않고 있으며, 실제 AI 운영의 진짜 비용은 더더욱 반영되지 않는다는 것임
원하지 않더라도 AI가 붙은 모든 것은 더 비싸질 것임
AIshittification
Tokenomics는 이미 암호화폐 경제를 설명하는 단어인데, AI에서 쓰는 토큰이 다른 종류라고 해도 왜 굳이 그 단어를 재정의하려는지 모르겠음
Tokenomics는 대마초 애호가들 사이에서도 오래전부터 쓰이던 말임
새로운 유행임
예전 유행은 잊고, 이것도 곧 낡을 테니 너무 늦기 전에 올라타야 함
cryptocurrency economics = cryptonomics
“Crypto”도 암호화폐가 자기들 것으로 만들기 전부터 있던 말임
“Web 3.0”도 암호화폐 사람들이 Web3를 암호화폐 중심으로 만들기 전부터 존재했음
그래서 뭐가 문제인지 모르겠음
용어는 서로 다른 맥락에서 계속 재사용됨
게다가 대부분은 이미 암호화폐에서 넘어갔으니, 혼란이 생길 가능성도 크지 않음
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기