본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 05. 20. 20:15

ts-bench: TypeScript 워크로드 기반 AI 코딩 에이전트 비교를 위한 벤치마크 CLI

요약

ts-bench는 TypeScript 워크로드 환경에서 다양한 AI 코딩 에이전트의 성능을 비교할 수 있는 CLI 기반 벤치마크 도구입니다. 25개의 독립적인 연습 문제와 실제 모노레포 기반의 대규모 태스크를 통해 모델 및 제공업체별 통과 여부를 확인할 수 있습니다.

핵심 포인트

  • TypeScript 워크로드에 특화된 AI 코딩 에이전트 성능 비교 도구
  • 실험실 수준의 정밀도보다는 성능의 방향성을 파악하는 데 목적을 둠
  • 독립적인 연습 문제(v1)와 실제 모노레포 기반의 대규모 작업(v2) 데이터셋 제공
  • Docker 없이 실행 가능한 환경과 Docker가 필요한 실제 작업 환경을 모두 지원
  • Cursor를 포함한 다양한 에이전트 실행 시 주의사항 및 토큰 사용량 수집 기능 포함

TypeScript 워크로드에서 AI 코딩 에이전트(AI coding agents)를 비교하기 위한 벤치마크 CLI (Benchmark CLI)입니다. 에이전트를 실행하고, 테스트를 수행하며, 모델 및 제공업체(providers) 전반에 걸쳐 통과/실패 여부를 확인하세요. 수치는 방향성을 나타내며, 실험실 수준의 정밀도는 아닙니다.

bun install
bun link # `ts-bench` 명령어를 전역(globally)으로 설치합니다
ts-bench --agent claude --model <model>

모든 옵션은 ts-bench --help를 참조하세요.

25개의 독립적인 TypeScript 연습 문제. Docker가 필요하지 않습니다.

ts-bench --agent claude --model <model>

--model을 생략하면

에이전트의 기본 모델(default model)을 사용합니다.

재현성을 위한 고정된 베이스라인(Frozen baseline): v1-final 태그

대규모 모노레포(monorepo) (Expensify)에서 가져온 실제 작업(Real-world tasks). Docker가 필요합니다.

./scripts/setup-v2-env.sh # 1회성 설정
ts-bench --dataset v2 --task <id> --agent claude ... # 실행

워크플로 실행: v1 · v2 · Releases

태스크 브라우저(Task browser): bun run build:swelancer-pages 실행 후

docs/swelancer-tasks/를 여세요.

docs/README.md를 참조하세요.

Handbook— 설정(setup), 비밀값(secrets), CI, 방법론(methodology)
AGENTS.md— Cursor 및 기타 에이전트의 실행 시 주의사항(runner caveats)
Subscription auth— API 키 없이 에이전트 실행 (claude, gemini, codex, copilot)
Token usage— 에이전트별 토큰 수(token counts) 수집 방식

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0