ts-bench: TypeScript 워크로드 기반 AI 코딩 에이전트 비교를 위한 벤치마크 CLI

TypeScript 워크로드에서 AI 코딩 에이전트(AI coding agents)를 비교하기 위한 벤치마크 CLI (Benchmark CLI)입니다. 에이전트를 실행하고, 테스트를 수행하며, 모델 및 제공업체(providers) 전반에 걸쳐 통과/실패 여부를 확인하세요. 수치는 방향성을 나타내며, 실험실 수준의 정밀도는 아닙니다.

bun install
bun link # `ts-bench` 명령어를 전역(globally)으로 설치합니다
ts-bench --agent claude --model <model>

모든 옵션은 ts-bench --help를 참조하세요.

25개의 독립적인 TypeScript 연습 문제. Docker가 필요하지 않습니다.

ts-bench --agent claude --model <model>

--model을 생략하면

에이전트의 기본 모델(default model)을 사용합니다.

재현성을 위한 고정된 베이스라인(Frozen baseline): v1-final 태그

대규모 모노레포(monorepo) (Expensify)에서 가져온 실제 작업(Real-world tasks). Docker가 필요합니다.

./scripts/setup-v2-env.sh # 1회성 설정
ts-bench --dataset v2 --task <id> --agent claude ... # 실행

워크플로 실행: v1 · v2 · Releases

태스크 브라우저(Task browser): bun run build:swelancer-pages 실행 후

docs/swelancer-tasks/를 여세요.

docs/README.md를 참조하세요.

Handbook— 설정(setup), 비밀값(secrets), CI, 방법론(methodology)
AGENTS.md— Cursor 및 기타 에이전트의 실행 시 주의사항(runner caveats)
Subscription auth— API 키 없이 에이전트 실행 (claude, gemini, codex, copilot)
Token usage— 에이전트별 토큰 수(token counts) 수집 방식

Insights

ts-bench: TypeScript 워크로드 기반 AI 코딩 에이전트 비교를 위한 벤치마크 CLI

요약

핵심 포인트

댓글

저커버그: Meta의 AI 조직 개편 목표는 '아직 결실을 보지 못했다'

Claude Code, 그 사용법은 아깝다 ― 실전 TIPS 모음 (수시 업데이트)

Virufy: 기침을 통한 COVID-19 AI 탐지를 위한 크라우드소싱 및 임상 데이터셋의 글로벌 적용 가능성

LLM의 대안을 만들 수 있을까? 8개월, 약 200번의 실패한 실험, 그리고 하나의 벽 (Part 2)

Claude Code, 그 사용법은 아깝다 ― 실전 TIPS 모음 (수시 업데이트)

Virufy: 기침을 통한 COVID-19 AI 탐지를 위한 크라우드소싱 및 임상 데이터셋의 글로벌 적용 가능성

LLM의 대안을 만들 수 있을까? 8개월, 약 200번의 실패한 실험, 그리고 하나의 벽 (Part 2)