본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 13:00

TraceLab: LLM 서빙을 위한 코딩 에이전트 워크로드 특성 분석

요약

코딩 에이전트의 효율적인 LLM 서빙을 위해 실제 사용 패턴을 분석한 TraceLab 연구를 소개합니다. Claude Code와 Codex의 트레이스를 분석하여 긴 자율 루프와 긴 컨텍스트 등 코딩 에이전트 특유의 워크로드 특성을 규명했습니다.

핵심 포인트

  • Claude Code 및 Codex 기반 4,300개 세션 트레이스 공개
  • 긴 자율 루프와 긴 컨텍스트, 헤비 테일 분포의 도구 호출 특징 발견
  • 도구 호출 오버헤드 감소 및 KV-캐시 관리 최적화 기회 제시
  • 실제 코딩 에이전트 워크로드 분석을 위한 데이터셋 및 파이프라인 제공

코딩 에이전트(Coding agents)는 에이전트형 LLM(agentic LLMs)의 주요 애플리케이션으로 빠르게 자리 잡고 있지만, 이들을 효율적으로 서빙(serving)하는 것은 여전히 어려운 과제로 남아 있습니다. 이 과제를 해결하려면 실제 워크로드 패턴을 이해해야 하지만, 그러한 분석에 필요한 데이터는 대체로 부재한 상태입니다. 기존의 공개 트레이스(traces) 및 벤치마크(benchmarks)는 서빙 시스템 분석을 위해 여러 에이전트와 모델 제품군(model families)에 걸쳐 발생하는 실제 일상적인 코딩 에이전트 사용 패턴을 포착하지 못합니다. 이러한 격차를 메우기 위해, 우리는 Claude Code 및 Codex의 일상적인 사용으로부터 약 350,000개의 LLM 단계(steps)와 430,000개의 도구 호출(tool calls)을 포함하는 약 4,300개의 코딩 에이전트 세션 트레이스를 수집하여 공개합니다. 우리의 분석에 따르면, 코딩 에이전트 워크로드는 긴 자율 루프(autonomous loops), 짧은 출력과 함께 나타나는 긴 컨텍스트(long contexts), 다양하고 헤비 테일(heavily-tailed) 분포를 보이는 도구 호출, 그리고 높지만 불완전한 프리픽스 캐시(prefix cache) 적중률을 특징으로 합니다. 이러한 발견은 오버헤드가 낮은 도구 호출(tool calling), 추가 길이 인지 프리필(append-length-aware prefill), 의미론적 인지 도구 지연 시간 예측(semantic-aware tool-latency prediction), 그리고 인간의 작업 속도에 맞춘 간극(human-paced gaps) 주변의 개선된 KV-캐시(KV-cache) 관리 등 서빙을 최적화할 수 있는 구체적인 기회들을 제시합니다. 우리는 데이터셋, 트레이스 수집 파이프라인 및 분석 코드를 https://github.com/uw-syfi/TraceLab.git 에서 공개하며, 프로젝트 웹사이트는 https://tracelab.cs.washington.edu 입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0