Agent의 Loop에는 비용 규율이 필요하다

OpenClaw를 둘러싼 논의는 공개 보도를 통해 전해진 30일간의 OpenAI 청구 금액으로 인해 간과하기 어려운 것이 되었다. 금액은 $1,305,088.81였으며, 약 100개의 Codex agent에 의한 6030억 token과 760만 건의 요청이 포함되어 있었다. 놀라운 것은 당연하다. 작은 조직이라도 지치지 않는 코드 작업자, 코드 검토자, 측정 모니터링 요원, 과제 분류자, 회의 참석자를 주변에 둘 수 있기 때문이다. 하지만 더 조용한 교훈이 더 중요하다. agent가 Loop에서 움직이기 시작하면, 주요 제약 사항은 지능으로의 연결에서 주의(attention), 문맥(context), 비용 제어로 옮겨간다.

Loop engineering이라는 용어가 매력적으로 들리는 이유는 Loop가 agent성의 자연스러운 형태이기 때문이다. 메커니즘은 상황을 관찰하고, 행동을 선택하고, 도구(tool)를 사용하고, 결과를 확인하고, 기억을 업데이트하며, 다시 시도한다. 이 패턴은 모델을 똑똑한 문장 생성기에서 추진력을 가진 작업자로 변화시킨다. OpenClaw가 중요한 이유는 이 패턴을 실용의 장에서 보여주기 때문이다. 지속되는 상태, 수중에 있는 도구, 기술(skills), 코드에 대한 연결, 연락, 파일, 자동화가 하나의 agent runtime으로 엮여 있다.

Loop를 한 번 통과할 때마다 비용이 발생한다. 계획 단계는 문맥(context)을 소비한다. 도구 호출은 기록을 늘린다. 검토 단계는 더 많은 파일을 기억에 넣는다. 재시도는 과거의 실패를 모델이 추론하게 만든다. 두 번째 agent가 첫 번째를 검토하면 token 층이 더욱 늘어난다. 사용자에게는 똑똑해 보이는 Loop도 청구서에서는 다른 모습이 된다. 성공의 가치가 정의되기 전에, 모호함을 사용량으로 변환하는 장치가 될 수 있다.

따라서 token 비용 제어는 Loop engineering의 중심에 놓여야 한다. 목표는 언제 계속할지, 언제 문맥을 압축할지, 언제 모델을 교체할지, 언제 사람에게 물을지, 언제 멈출지를 이해하는 agent를 설계하는 것이다. 비용은 재무 지표이자 불확실성의 신호이기도 하다. 반복되는 재시도는 결여된 요구사항을 나타낼 수 있다. 긴 프롬프트(prompts)는 취약한 상태 설계를 나타낼 수 있다. 값비싼 검토의 연쇄는 불충분한 검사를 나타낼 수 있다. token 청구액의 상승은 작업 흐름이 제공하지 못한 구조를 시스템이 찾고 있는 징후가 되기 쉽다.

최근의 OpenClaw 연구도 같은 방향을 가리키고 있다. OpenClawBench는 작업의 성공과 과정의 건전성 사이의 격차를 설명한다. 그 데이터에 따르면, 많은 실행이 최종 확인을 통과하면서도 무시된 오류, 해결되지 않은 모호함, 안전하지 않은 쓰기, 능력을 초과한 주장과 같은 과정의 이상을 포함하고 있었다. 비용 관점에서 이는 중요하다. 낭비와 위험은 동시에 커지는 경우가 많다. agent는 완성된 것처럼 보이는 결과를 위해 수천 token을 사용할 수 있지만, 그 경로에는 보이지 않는 부채가 남을 수 있다.

안전성 연구자들도 비슷한 우려를 나타내고 있다. 지속되는 자격 증명(credential), 파일 연결, 도구, 외부 기술(skills)을 가진 자체 운영 agent는 새로운 운영상의 경계가 된다. 정당한 권한을 통해 행동하면서 기억과 설정을 시간이 지남에 따라 변경할 수 있다. 노력을 줄여주는 동일한 Loop가 조용히 위험을 축적한다. 예산의 문, 권한의 문, 인간의 확인 지점은 하나의 시스템으로서 설계되어야 한다. agent가 왜 token을 사용했는지 설명하기 어려운 조직은, 그 agent가 왜 자격 증명에 접근하고 파일을 변경하며 작업 단계를 높였는지도 설명하기 어려워질 것이다.

실무적인 답은 좋은 의미에서 수수하다. 모든 Loop에 예산 계약을 부여한다. agent가 시작하기 전에 최대 호출 횟수, 최대 token, 모델 등급, 도구 범위, 사람에게 넘기는 지점을 결정한다. 저렴한 관찰과 높은 추론을 분리한다. 문맥에는 작업 집합만 남기고, 나머지는 추출 가능한 결과물로서 저장한다. 다른 모델에 판단을 맡기기 전에 결정적인 검사를 수행한다. 반복적인 분석은 저장하여 재사용한다. 추가적인 한 번의 시도가 만드는 한계 가치를 측정한다. 다섯 번째 통과가 결과를 거의 바꾸지 않는다면, 다섯 번째에는 더 강력한 이유가 필요하다.

모델 선택에도 규율이 필요하다. frontier 모델은 구조적 판단, 미지의 코드, 고위험 통합에 적합할 수 있다. 작은 모델은 분류, 추출, 정형, 일반적인 비교에는 충분할 수 있다. 고속 실행 설정은 지연이 가장 희소한 자원일 때 가치를 가지지만, 보이는 비용 표시를 가져야 한다. 초기 설정은 모든 단계에서 최대의 지능을 사용하는 형태를 피하고 싶다. 초기 설정은 검증된 결과에 이르는 가장 저렴하고 신뢰할 수 있는 길이어야 한다.

전문 도구는 낭비를 줄일 수 있다. 모호한 모델 작업을 편집 가능한 결과물로 바꾸기 때문이다. 기술 조직은 변경 계획에 ChatGPT를 사용하고, 두 번째 추론 확인에는 Gemini를 사용하며, 화면 이미지의 수식을 Miss Formula로 복원하고, AI가 만든 논문 그림을 Editable Figure를 통해 편집 가능한 vector 이미지로 변환할 수 있다. 이러한 흐름은 모델이 동일한 결과물을 반복해서 다시 만드는 일을 줄여준다. 결과를 확인하고, 수정하고, 재사용할 수 있기 때문에 인간이 제어권을 유지할 수 있다.

강력한 agent 조직은 token을 운전 자본 (working capital)처럼 다룬다. 어떤 Loop가 지속적인 지식을 생성하는지, 어떤 Loop가 움직임만을 만들어내는지, 그리고 어떤 Loop가 미결정 상태를 숨기고 있는지를 질문한다. 작업 유형, repository, 모델, agent, 결과별로 token 사용량을 시각화한다. 자율 수정 (autonomous correction) 비용과 인간이 지원하는 수정 비용을 비교한다. 짧은 prompts가 품질을 유지할 때, 짧은 prompts를 성과로서 평가한다. 비용 규율을 제품 설계, 공학적 위생 (engineering hygiene), 조직의 성숙도로 다룬다.

OpenClaw의 논의는 제작자를 더 야심 차고 더 규율 있는 방향으로 나아가게 한다. 거대한 agent 군집은 software가 쉬지 않고 작동할 때 무엇이 가능해지는지를 보여준다. 동시에, Loop에 명확한 계약 (contract)이 없을 때 시스템이 얼마나 빠르게 비용을 소모하는지도 보여준다. agent 공학의 다음 단계는 Loop를 영원히 실행한다는 발상에서 벗어나, Loop의 매 회차마다 의미를 부여하는 방향으로 나아가는 것이다. token 제어는 자동화가 단순한 볼거리에서 운영 체계로 넘어가는 순간이다.

Agent의 Loop에는 비용 규율이 필요하다

요약

핵심 포인트

댓글