에이전트 기반 소프트웨어 개발의 숨겨진 비용: 컨텍스트 엔지니어링 (Context Engineering)이 중요한 이유

어떤 방식으로 분석하든 시장의 메시지는 명확합니다. 토큰 비용은 이제 거버넌스 (Governance) 문제입니다. 소비량이 불투명하고 비용 청구가 가변적일 때, 엔지니어링 리더들은 지출을 예측하거나, 예산을 설정하거나, 팀에 책임을 묻는 능력을 상실하게 됩니다. 이는 FinOps가 하나의 전문 분야로 자리 잡기 전, 10년 전 클라우드 비용을 괴롭혔던 것과 동일한 통제 문제입니다.

Tessl은 이미 이 실험을 수행했습니다. 기본 평가 솔버 (eval solver)를 Claude Sonnet 4.6에서 오픈 웨이트 (open-weight) 모델인 GLM 5.1로 전환했을 때 — 에이전트의 기술이 제대로 작동하는지 측정하기 위해 사용하는 더 저렴한 모델입니다 — 기술을 갖춘 에이전트들이 작업의 88.5%에서 올바른 결과에 동의했으며, 전체 평가 비용은 약 28% 낮아졌음을 발견했습니다.

Concordia University의 최근 연구는 이러한 전반적인 우려에 실증적인 무게를 더해주며, 그 결과는 에이전트 지출이 어디에 집중되어 있는지 알고 있다고 가정하는 엔지니어링 리더들을 놀라게 할 수도 있습니다.

컨텍스트 엔지니어링 (Context engineering)은 비용 조절 레버입니다

Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering라는 제목의 이 논문은 프로그래머, 테스터, 코드 리뷰어와 같은 역할을 할당받은 에이전트들로 구성된 소프트웨어 개발 팀을 시뮬레이션하는 오픈 소스 멀티 에이전트 프레임워크인 ChatDev를 통해 실행된 30개의 소프트웨어 개발 작업 실행 트레이스 (execution traces)를 분석했습니다. Concordia의 Data-driven Analysis of Software 연구실의 Emad Shihab이 이끄는 연구진은 설계 (design), 코딩 (coding), 코드 완성 (code completion), 코드 리뷰 (code review), 테스트 (testing), 문서화 (documentation)의 6가지 개발 단계에 걸친 토큰 소비를 매핑했습니다.

가장 핵심적인 발견은 코드 리뷰 (code review)가 전체 토큰 소비의 평균 59.4%를 차지한다는 것이며, 이는 단일 비용 센터 중 압도적으로 가장 큰 비중을 차지합니다. 이와 대조적으로 초기 코드 생성 (initial code generation)은 단 8.6%에 불과합니다.

ChatDev with GPT-5 reasoning (Credit: Concordia University)

GPT-5 추론을 사용하는 ChatDev (출처: Concordia University)

보고서에서 제시하는 이유는 구조적입니다. 대화형 멀티 에이전트 시스템 (conversational multi-agent system)에서 코드 리뷰에 참여하는 에이전트들은 매 턴마다 전체 코드베이스를 반복적으로 주고받으며, 연구자들이 "통신세 (communication tax)"라고 부르는 비용을 축적합니다. 모든 작업에 걸쳐 모델에 입력되는 컨텍스트인 입력 토큰 (input tokens)은 전체 소비의 53.9%를 차지했으며, 출력 토큰 (output tokens)은 24.4%였습니다.

다시 말해, 에이전트들은 새로운 작업을 생성하는 데 쓰는 토큰보다 서로에게 컨텍스트를 전달하며 소통하는 데 더 많은 토큰을 소비하고 있습니다.

코딩 (coding) 단계는 주목할 만한 예외 사례입니다. 이 단계는 출력 토큰이 58%인 반면 입력 토큰은 6.9%에 불과하여 출력 중심적 (output-heavy)으로 작동하는데, 이는 하나의 지시사항이 수백 줄의 코드를 생성할 수 있다는 점에서 직관적으로 이해가 가는 부분입니다. 테스트 (testing)와 문서화 (documentation)를 포함한 다른 모든 단계는 입력 토큰이 지배적입니다.

단계별 토큰 비율 분석 (출처: Concordia University)

청구서가 도착하기 전에 비용 지도를 파악하십시오

프로덕션 환경에서 에이전트를 운영하는 팀의 경우, 이 연구는 작업의 성격에 기반하여 비용을 예측할 수 있는 방법을 제시합니다. 상당한 초기 코딩이 필요한 그린필드(Greenfield) 프로젝트는 리팩토링(Refactoring)이나 리뷰 비중이 높은 작업과는 매우 다른 양상을 보일 것입니다. 후자의 경우, 입력량이 많고 비용이 많이 드는 코드 리뷰 사이클이 지배적으로 나타나기 때문입니다. 연구진은 반복적인 코드 리뷰 루프가 시작되기 전에 인간의 체크포인트(Human checkpoint)를 삽입함으로써 불필요한 토큰 소모(Token burn)를 상당 부분 방지할 수 있다고 제안하며, 실제 비효율성이 어디에 있는지를 지적합니다.

보고서는 "이는 에이전트 기반 소프트웨어 엔지니어링(Agentic software engineering)의 주요 비용이 초기 코드 생성(Code generation)이 아니라, 정제(Refinement)와 검증(Verification)을 위한 반복적인 대화형 프로세스에 있음을 시사한다"라고 명시합니다.

중요한 주의 사항도 있습니다. 이 연구는 30개의 태스크에 대해 단일 프레임워크와 단일 모델인 GPT-5를 사용했습니다. ChatDev는 상용 도구라기보다 주로 연구용 프레임워크이므로, 특정 백분율이 상용 에이전트에 직접적으로 적용되지 않을 수 있습니다. 저자들도 이러한 한계점을 솔직하게 인정하고 있습니다. 하지만 에이전트가 기존의 방대한 코드를 반복적으로 흡수하는 검증 및 정제 루프가 생성(Generation)보다 구조적으로 더 비용이 많이 든다는 근본적인 역학 관계는, 보다 광범위한 대화형 멀티 에이전트 아키텍처(Conversational multi-agent architectures) 전반에 걸쳐 유지될 가능성이 높습니다.

또한 이 연구는 컨텍스트 엔지니어링(Context engineering)에 관한 실무자들의 증가하는 견해와도 맞닿아 있습니다. 즉, 토큰 비용을 낮추는 것은 모델 자체의 문제라기보다 모델에 전달되는 정보를 얼마나 주의 깊게 관리하느냐의 문제입니다. Tessl 레지스트리에 등록된 커뮤니티 기여 기술은 이 연구 라인을 직접 인용하며, 필요한 것만 로드하고, 히스토리를 압축하며, 엄격한 검색 임계값(Retrieval thresholds)을 적용하는 컨텍스트 엔지니어링을 에이전트 비용을 통제하기 위한 실무적인 규율(Discipline)로 정의하고 있습니다.

Tessl's evals layer는 또 다른 차원을 추가합니다. 모델 간의 쌍을 이룬 평가(paired evaluations)를 실행하고 턴 수(turn count), 작업당 비용(cost per task), 기술 성능(skill performance)을 나란히 측정함으로써, 엔지니어링 팀은 막대한 비용 차이를 숨길 수 있는 헤드라인 정확도 점수(headline accuracy scores)에 의존하는 대신, 특정 워크로드(workload)에 대해 어떤 모델이 최상의 결과를 제공하는지에 대해 데이터 기반의 의사결정을 내릴 수 있습니다.

토큰 기반 과금(token-based billing)이 표준이 됨에 따라, 토큰이 실제로 어디에 사용되는지 이해하는 것은 에이전트(agent)를 책임감 있게 운영하기 위한 전제 조건입니다.

에이전트 기반 소프트웨어 개발의 숨겨진 비용: 컨텍스트 엔지니어링 (Context Engineering)이 중요한 이유

요약

핵심 포인트

컨텍스트 엔지니어링 (Context engineering)은 비용 조절 레버입니다

청구서가 도착하기 전에 비용 지도를 파악하십시오

댓글