Trace 기반의 적응형 비용 효율적 라우팅 (Trace-Based Adaptive Cost-Efficient Routing)

Trace 기반의 적응형 비용 효율적 라우팅 (Trace-Based Adaptive Cost-Efficient Routing)

대부분의 LLM 기반 분류 파이프라인은 모든 개별 입력에 대해 대규모 언어 모델 (LLM)을 사용합니다. 실제로 그 트래픽의 대다수는 예측 가능합니다. 가벼운 전통적 머신러닝 (ML) 모델 (로지스틱 회귀 (logistic regression), 그래디언트 부스팅 트리 (gradient-boosted trees), 또는 작은 신경망 (small neural net))이 LLM의 출력과 거의 완벽하게 일치하는 결과를 낼 수 있습니다.

TRACER는 사용자의 LLM 분류 트레이스 (classification traces)로부터 "쉬운" 입력과 "어려운" 입력 사이의 결정 경계 (decision boundary)를 직접 학습합니다. TRACER는 쉬운 파티션 (easy partition)에 대해 빠르고 비-LLM 방식의 대리 모델 (surrogate)을 맞추고, 이를 보정된 수락기 (calibrated acceptor)로 게이팅 (gating)하며, 불확실한 입력만을 LLM으로 다시 미룹니다 (defer). 미뤄진 모든 호출은 새로운 트레이스를 생성하며, 이는 다음 재적합 (refit)에 반영되어 시간이 지남에 따라 커버리지 (coverage)가 자동으로 성장합니다. 그 결과: 분류 호출의 90% 이상이 전통적 ML로 라우팅되며, 교사 LLM (teacher LLM)에 대한 공식적인 동등성 보장 (formal parity guarantees) 및 자기 개선형 라우팅 정책 (self-improving routing policy)을 제공합니다.

pip install tracer-llm

tracer demo

TRACER Demo - Banking77 (77 intents · 1,500 traces)
Routing Policy
method l2d
...

입력: 각 라인이 원문 텍스트 (input)와 LLM이 할당한 레이블 (teacher)을 포함하는 JSONL 파일입니다.

import tracer
# 1. Fit - LLM의 분류 트레이스로부터 라우팅 정책을 학습합니다
result = tracer.fit(
...

더 자세히 알고 싶으신가요? 개념 가이드 (concepts guide)에서 전체 파이프라인, 모델 주 (model zoo), 그리고 동등성 게이트 (parity gate)를 설명합니다. API 레퍼런스 (API reference)는 모든 파라미터를 다룹니다. CLI 레퍼런스 (CLI reference)는 tracer fit, tracer serve 등을 다룹니다.

TRACER는 애플리케이션 코드에 Python이 전혀 없어도 JS 파이프라인과 함께 작동합니다. 패턴은 다음과 같습니다: JS에서 트레이스 로그 기록 → CLI로 오프라인에서 적합 (fit) → tracer serve를 사이드카 (sidecar)로 실행 → fetch를 통해 호출.

// 1. 모든 LLM 분류를 로그로 기록
fs.appendFileSync('traces.jsonl', JSON.stringify({ input: text, teacher: label }) + '\n')
// 2. 추론 시: 임베딩 (embed) → TRACER로 POST → 미뤄진 경우에만 LLM으로 폴백 (fallback)
...

임베딩 (embeddings), docker-compose, 배치 예측 (batch prediction), 그리고 지속적 학습 (continual learning)을 포함한 전체 설정에 대해서는 JavaScript 통합 가이드를 참조하세요.

사용자 쿼리 (User query) → [Embedder] → [ML Surrogate] → [Acceptor Gate]
| | 
score >= t score < t
...

대리 모델 (surrogate)은 또 다른 LLM이 아닙니다 — 이는 고전적인 머신러닝 (ML) 또는 얕은 딥러닝 (shallow DL) 모델입니다. 기본적으로 모델 저장소 (zoo)는 가볍고 빠릅니다 (로지스틱 회귀 (logistic regression), SGD, 그리고 작은 피드포워드 신경망 (feed-forward nets)). 트리 기반 모델 (의사결정 트리 (decision tree), 랜덤 포레스트 (random forest), 엑스트라 트리 (extra-trees), 그래디언트 부스팅 (gradient boosting))은 더 무거우며 tracer fit --trees를 통해 선택적으로 사용할 수 있습니다.

이것이 실제 비용 절감을 가능하게 하는 핵심입니다: 추론 (inference)은 CPU에 의해 제한되며 (CPU-bound), 1밀리초 미만으로 소요되고, 비용이 들지 않습니다.

Fit (학습)- 귀하의 LLM 분류 트레이스 (classification traces)를 사용하여 후보 대리 모델 세트를 학습시킵니다; 교차 검증된 교사 모델 일치도 (cross-validated teacher agreement)를 통해 최적의 모델을 선택합니다.
Gate (게이트)- 입력별로 대리 모델이 교사 모델과 일치할지 여부를 추정하는 학습된 수락자 (acceptor)를 부착합니다.
Calibrate (교정)- 목표 일치도(예: 교사 모델 일치도 ≥ 95%)에서 커버리지 (coverage)를 최대화하도록 수락자 임계값 (acceptor threshold)을 탐색합니다.
Guard (방어)- 최적의 후보가 홀드아웃 데이터 (held-out data)에서 목표 일치도 기준을 통과하지 못하면 배포를 차단합니다.

지표 (Metric)	값 (Value)
커버리지 (Coverage)	트래픽의 92.2%를 로컬에서 처리
...	연간 절감액 (일일 1만 건의 쿼리 기준)
	$302,850

Banking77은 77개 클래스 작업입니다; 여기서는 트리 모델이 도움이 되므로, 이 수치들은 tracer fit --trees를 사용한 결과입니다. 가벼운 기본 설정(선형 + MLP)은 더 빠르며 대부분의 작업에 충분합니다.

TRACER는 일회성 학습이 아닙니다. LLM에 도달하는 모든 미뤄진 입력 (deferred input)은 새로운 라벨링된 트레이스 (labeled trace)를 생성하며, 이는 다음 재학습 (refit)에 피드백됩니다. 대리 모델이 입력 분포를 더 많이 볼수록 커버리지가 증가하며, 이는 LLM 호출 횟수가 줄어듦을 의미합니다. 결과적으로 비용은 낮아지면서도, 매 반복마다 품질 보증은 유지됩니다.

1일 차: 2,000개 트레이스 → 84% 커버리지 → 일일 1,600회 호출 절감
3일 차: 6,000개 트레이스 → 90% 커버리지 → 일일 9,000회 호출 절감
5일 차: 10,000개 트레이스 → 92% 커버리지 → 일일 9,200회 호출 절감

tracer.update("new_traces.jsonl", embeddings=X_new) # 새로운 프로덕션 트레이스(production traces)로 재학습(refit)

패리티 게이트(parity gate)는 업데이트될 때마다 재교정(re-calibrate)되므로, 대리 모델(surrogate)이 실제로 성능을 입증했을 때만 커버리지(coverage)가 증가합니다.

from tracer import Embedder
embedder = Embedder.from_sentence_transformers("BAAI/bge-small-en-v1.5") # 로컬(local)
embedder = Embedder.from_endpoint("https://api.example.com/embed", headers={...}) # API
...

학습(fit) 시점에 임베딩(embeddings)을 계산해야 하나요?

pip install tracer-llm[embeddings] # sentence-transformers 추가

X = tracer.embed(texts) # 기본값: all-MiniLM-L6-v2 (384-dim)

명령어	기능
`tracer demo`	실제 데이터로 설정 없이 실행하는 데모
`tracer scan traces.jsonl --html scan.html`	첫날의 분석: 3D 맵과 함께 인증 가능한 라우팅 가능 트래픽 양 확인
`tracer fit traces.jsonl --target 0.95`	라우팅 정책(routing policy) 학습
`tracer update new_traces.jsonl`	새로운 트레이스로 재학습(refit)
`tracer report-html`	HTML 보고서 열기
`tracer serve .tracer --port 8000`	HTTP 예측 서버

tracer scan은 빠르고 보수적인 첫 번째 분석 단계입니다 (훈련 없이 유사도 그룹화 및 정확한 홀드아웃 경계(held-out bounds) 사용). 약 1,000개의 트레이스가 필요하며 5,000개 근처에서 가장 잘 작동합니다. 1,000개 미만일 경우 더 많은 데이터를 수집하거나, 최선의 결과(best-effort)를 위해 --force 플래그를 전달할 것을 요청합니다. 임베딩은 기본적으로 로컬에서 계산되며 (sentence-transformers), --embed-url을 사용하여 자체 임베딩 서비스로 지정할 수 있습니다.

그 다음 tracer fit은 실제 라우터(router)를 학습시키고 동일한 트래픽에 대해 더 많은 인증을 수행합니다. HTML 보고서에는 판결/레이블 색상 토글 기능이 포함된 임베딩 공간의 대화형 3D 맵이 포함되어 있습니다. 모든 플래그(flag)에 대한 상세 내용은 CLI 참조를 확인하세요.

파일	내용
`manifest.json`	방법(Method), 커버리지(coverage), 교사 모델 일치도(teacher agreement), 레이블 공간(label space)
`pipeline.joblib`	대리 모델(Surrogate) + 수락자(acceptor) + 교정된 임계값(calibrated thresholds)
`frontier.json`	각 품질 목표(quality target)에서의 모든 후보군
`qualitative_report.json`	레이블별 슬라이스(slices), 경계 쌍(boundary pairs), 예시
`report.html`	시각화된 HTML 보고서

pip install tracer-llm # 코어 (numpy + sklearn + joblib)
pip install tracer-llm[embeddings] # + sentence-transformers
pip install tracer-llm[all] # 모든 기능 포함

| 개념 (Concepts) | 파이프라인 내부 구조 (Pipeline internals), 모델 동물원 (model zoo), 패리티 게이트 (parity gate) |
| API 레퍼런스 (API reference) | 모든 함수, 파라미터 (parameter), 그리고 반환 타입 (return type) |
| CLI 레퍼런스 (CLI reference) | tracer fit , tracer serve , tracer demo , 그리고 그 외 기능 |
| ... |
TRACER: LLM 분류를 위한 Trace 기반의 적응형 비용 효율적 라우팅 (Trace-Based Adaptive Cost-Efficient Routing for LLM Classification)

Adam Rida — arXiv 2026

@article{rida2026tracer,
title = {TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification},
author = {Rida, Adam},
...

MIT

Trace 기반의 적응형 비용 효율적 라우팅 (Trace-Based Adaptive Cost-Efficient Routing)

요약

핵심 포인트

댓글