FastContext, 토큰 사용량 60% 절감

요약

FastContext는 코딩 에이전트의 저장소 탐색을 경량화된 서브 에이전트가 담당하게 하여 토큰 사용량을 최대 60% 절감하는 기술입니다. 메인 모델이 불필요한 데이터 대신 정제된 컨텍스트만 전달받게 함으로써 비용 절감과 문제 해결 성능 향상을 동시에 달성합니다.

핵심 포인트

서브 에이전트 활용으로 토큰 소비량을 최대 60%까지 절감
SWE-bench 테스트 결과, 문제 해결 성공률 최대 5.5% 향상
메인 모델이 탐색 대신 코드 합성 및 해결에 집중할 수 있는 환경 제공
API 비용 절감과 에이전트 성능 최적화를 위한 새로운 아키텍처 제시

FastContext는 코드 분석 프롬프트의 토큰 예산을 약 60% 절감하며, 전용 탐색기(explorer)가 저장소 검색을 위해 거대한 단일 LLM(Large Language Model)에 의존하는 비중을 크게 줄일 수 있음을 입증했습니다. 검색 작업을 경량화된 서브 에이전트(sub-agent)로 오프로딩(offloading)함으로써, 메인 솔버(solver)는 진정으로 관련 있는 파일 경로와 라인 범위만을 전달받게 되어, 전통적으로 LLM 호출을 유발하던 노이즈 섞인 대량의 데이터를 제거할 수 있습니다.

FastContext 도입 전에는 대부분의 코딩 에이전트가 저장소 탐색과 문제 해결 모두에 동일한 언어 모델을 사용했습니다. 이러한 에이전트들은 철저한 검색을 수행하고, 프롬프트에 전체 파일을 임베딩(embedding)하며, 결과적으로 관련 없는 코드 조각들에 귀중한 컨텍스트(context) 공간을 낭비합니다. 이러한 패턴은 코드베이스 탐색 작업에 필요한 필수적인 오버헤드(overhead)로 받아들여져 왔습니다.

FastContext를 통합하면 SWE-bench 스위트 전반에서 토큰 소비를 최대 60%까지 줄일 수 있습니다. 가장 큰 절감 효과를 보인 SWE-QA에서는 GPT-5.4의 경우 60.3%, GLM-5.1의 경우 37.9%에 달했습니다. 한편, 학습된 탐색기(trained explorers)를 사용하더라도 동일한 벤치마크에서 GPT-5.4는 약 50%, GLM-5.1은 약 25%의 절감 효과를 유지했습니다 [[1]]. 서브 에이전트는 병렬 도구 호출(parallel tool calls)을 수행하고, 간결한 인용(citations)을 집계하여 메인 모델에 극적으로 다듬어진 컨텍스트를 제공합니다.

동일한 아키텍처 수정은 SWE-bench의 다국어 및 전문가 변형 버전에서 엔드 투 엔드(end-to-end) 해결률을 최대 5.5%까지 높입니다 [[1]]. 더 깨끗하고 증거가 풍부한 프롬프트를 제시함으로써, FastContext는 솔버가 탐색보다는 합성(synthesis)에 집중할 수 있게 하며, 이는 실제 버그 수정 및 기능 추가 작업에서 측정 가능한 이득으로 이어집니다.

보고된 이득은 "미미한 오버헤드 (marginal overhead)"를 동반합니다. 이는 FastContext가 절감된 토큰 비용보다는 훨씬 작지만, 병렬 검색 (parallel searches) 및 모델 추론 (model inference)을 위해 여전히 연산 사이클 (compute cycles)을 점유함을 의미합니다 [\u200d\u200d1\u200d]. 또한, 이번 평가는 SWE-bench 제품군에 국한되어 있습니다. 이 접근 방식이 더 크고 이질적인 코드베이스 (heterogenous codebases)나, 어휘적 매칭 (lexical matching)보다 의미론적 검색 (semantic search)이 더 중요한 도메인으로 어떻게 확장될지는 여전히 불분명합니다. 이는 다음과 같은 미해결 과제를 시사합니다: 이와 유사하게 가벼운 탐색기 (explorer)가 언어나 리포지토리 (repository) 크기별로 재학습하지 않고도 큐레이션된 벤치마크를 넘어 일반화될 수 있는가?

만약 토큰 절감 효과가 일반적인 개발자 워크플로 (workflows) 전반에서 유지된다면, 토큰당 LLM 사용량을 과금하는 모든 서비스는 기존의 단일 구조 탐색기 (monolithic explorer)를 FastContext 스타일의 서브 에이전트 (sub-agent)로 교체해야 합니다. 이를 통해 API 비용을 절감하는 동시에 성공률을 끌어올릴 수 있습니다.

References

FastContext: Training Efficient Repository Explorer for Coding Agents

AI 자동 생성 콘텐츠

원문 바로가기

FastContext, 토큰 사용량 60% 절감

요약

핵심 포인트

References

댓글