ts-bench: TypeScript 워크로드 기반 AI 코딩 에이전트 비교를 위한 벤치마크 CLI
요약
ts-bench는 TypeScript 워크로드 환경에서 다양한 AI 코딩 에이전트의 성능을 비교할 수 있는 CLI 기반 벤치마크 도구입니다. 25개의 독립적인 연습 문제와 실제 모노레포 기반의 대규모 태스크를 통해 모델 및 제공업체별 통과 여부를 확인할 수 있습니다.
핵심 포인트
- TypeScript 워크로드에 특화된 AI 코딩 에이전트 성능 비교 도구
- 실험실 수준의 정밀도보다는 성능의 방향성을 파악하는 데 목적을 둠
- 독립적인 연습 문제(v1)와 실제 모노레포 기반의 대규모 작업(v2) 데이터셋 제공
- Docker 없이 실행 가능한 환경과 Docker가 필요한 실제 작업 환경을 모두 지원
- Cursor를 포함한 다양한 에이전트 실행 시 주의사항 및 토큰 사용량 수집 기능 포함
TypeScript 워크로드에서 AI 코딩 에이전트(AI coding agents)를 비교하기 위한 벤치마크 CLI (Benchmark CLI)입니다. 에이전트를 실행하고, 테스트를 수행하며, 모델 및 제공업체(providers) 전반에 걸쳐 통과/실패 여부를 확인하세요. 수치는 방향성을 나타내며, 실험실 수준의 정밀도는 아닙니다.
bun install
bun link # `ts-bench` 명령어를 전역(globally)으로 설치합니다
ts-bench --agent claude --model <model>
모든 옵션은 ts-bench --help를 참조하세요.
25개의 독립적인 TypeScript 연습 문제. Docker가 필요하지 않습니다.
ts-bench --agent claude --model <model>
--model을 생략하면
에이전트의 기본 모델(default model)을 사용합니다.
재현성을 위한 고정된 베이스라인(Frozen baseline): v1-final 태그
대규모 모노레포(monorepo) (Expensify)에서 가져온 실제 작업(Real-world tasks). Docker가 필요합니다.
./scripts/setup-v2-env.sh # 1회성 설정
ts-bench --dataset v2 --task <id> --agent claude ... # 실행
워크플로 실행: v1 · v2 · Releases
태스크 브라우저(Task browser): bun run build:swelancer-pages 실행 후
docs/swelancer-tasks/를 여세요.
docs/README.md를 참조하세요.
Handbook— 설정(setup), 비밀값(secrets), CI, 방법론(methodology)
AGENTS.md— Cursor 및 기타 에이전트의 실행 시 주의사항(runner caveats)
Subscription auth— API 키 없이 에이전트 실행 (claude, gemini, codex, copilot)
Token usage— 에이전트별 토큰 수(token counts) 수집 방식
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기