pinchbench/skill

AI 코딩 에이전트를 위한 실세계 벤치마크 (Real-world benchmarks for AI coding agents)

참고: 이 저장소는 벤치마크 기술/태스크 (skill/tasks)를 포함하고 있습니다. 공식 리더보드 (leaderboard) 결과의 소스가 아닙니다. 공식 결과에 모델을 추가하려면 pinchbench/scripts/default-models.yml을 수정하십시오.

PinchBench는 LLM 모델이 OpenClaw 에이전트의 두뇌로서 얼마나 잘 수행하는지를 측정합니다. 합성 테스트 (synthetic tests) 대신, 우리는 에이전트에게 회의 일정 잡기, 코드 작성, 이메일 분류 (triaging), 주제 조사, 파일 관리와 같은 실제 태스크를 부여합니다.

결과는 pinchbench.com의 공개 리더보드에서 수집됩니다.

대부분의 LLM 벤치마크는 고립된 능력들을 테스트합니다. PinchBench는 코딩 에이전트에게 실제로 중요한 것들을 테스트합니다:

도구 사용 (Tool usage)— 모델이 올바른 매개변수 (parameters)와 함께 올바른 도구를 호출할 수 있는가?
다단계 추론 (Multi-step reasoning)— 복잡한 태스크를 완료하기 위해 행동들을 체인처럼 연결할 수 있는가?
실세계의 복잡함 (Real-world messiness)— 모호한 지시와 불완전한 정보를 처리할 수 있는가?
실질적인 결과 (Practical outcomes)— 실제로 파일을 생성했는가, 이메일을 보냈는가, 또는 회의 일정을 잡았는가?

# skill 클론
git clone https://github.com/pinchbench/skill.git
cd skill
...

참고: 모델 ID에는 반드시 제공자 접두사 (provider prefix)가 포함되어야 합니다 (예: openrouter/, anthropic/). OpenRouter는 라우팅 (routing)을 위해 사용되는 기본 제공자입니다.

요구 사항 (Requirements):

Python 3.10 이상
uv 패키지 매니저 (package manager)
실행 중인 OpenClaw 인스턴스 (instance)

카테고리 (Category)	태스크 (Tasks)	테스트 항목 (What's tested)
생산성 (Productivity)	캘린더, 일일 요약	이벤트 생성, 시간 파싱 (parsing), 일정 관리
조사 (Research)	주가, 컨퍼런스, 시장	웹 검색, 데이터 추출, 합성 (synthesis)
글쓰기 (Writing)	블로그 포스트, 이메일, 인간화 (humanization)	콘텐츠 생성, 어조 (tone), 포맷팅
코딩 (Coding)	날씨 스크립트, 파일 구조	코드 생성, 파일 작업
분석 (Analysis)	스프레드시트, PDF, 문서	데이터 처리, 요약
이메일 (Email)	분류 (Triage), 검색	편지함 관리, 필터링
메모리 (Memory)	컨텍스트 검색 (Context retrieval), 지식 관리	장기 메모리, 회상 (recall)
기술 (Skills)	ClawHub, 기술 발견	OpenClaw 생태계 통합

각 태스크는 자동으로 채점되거나, LLM 심사위원 (LLM judge)에 의해, 또는 두 방식 모두를 통해 채점됩니다. 이를 통해 객관적이면서도 미묘한 차이까지 잡아내는 평가 (evaluation)를 보장합니다.

리더보드 (leaderboard)에 결과를 등록하려면:

# API 토큰 등록 (1회성)
./scripts/run.sh --register
# 벤치마크 실행 — 결과가 토큰과 함께 자동 업로드됩니다
...

로컬 결과만 확인하고 싶다면 --no-upload를 사용하여 업로드를 건너뛸 수 있습니다.

공식 실행 결과(리더보드에 표시됨)를 제출하려면:

# 환경 변수 사용
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model anthropic/claude-sonnet-4
...

플래그 (Flag)	설명
`--model MODEL`	테스트할 모델 (예: `openrouter/anthropic/claude-sonnet-4`)
`--judge MODEL`	LLM 채점을 위한 심사위원 모델; 설정 시 직접 API를 사용합니다 (아래 참조)
`--suite SUITE`	`all`, `automated-only`, 또는 쉼표로 구분된 태스크 ID
`--runs N`	평균 계산을 위한 태스크당 실행 횟수
`--timeout-multiplier N`	속도가 느린 모델을 위한 타임아웃 배수 설정
`--thinking LEVEL`	추론 (Reasoning) 깊이: `off`, `minimal`, `low`, `medium`, `high`, `xhigh`, `adaptive`
`--output-dir DIR`	결과 저장 경로 (기본값: `results/`)
`--no-upload`	리더보드 업로드 생략
`--register`	제출을 위한 API 토큰 요청
`--upload FILE`	이전 결과 JSON 파일 업로드
`--official-key KEY`	제출을 공식으로 표시 (또는 `PINCHBENCH_OFFICIAL_KEY` 환경 변수 사용)

기본적으로 (--judge 플래그 미사용 시), LLM 심사위원은 OpenClaw 에이전트 세션 (agent session)으로 실행됩니다. --judge가 지정되면, OpenClaw의 페르소나 주입 (personality injection)을 우회하여 모델 API를 직접 호출합니다.

# 기본값: OpenClaw 에이전트 세션 (--judge 불필요)
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
# OpenRouter를 통한 직접 API 호출
...

필수 환경 변수: 심사위원 모델의 접두사(prefix)에 따라 OPENROUTER_API_KEY, KILO_API_KEY, ANTHROPIC_API_KEY, 또는 OPENAI_API_KEY가 필요합니다.

새로운 태스크를 환영합니다! 형식은 tasks/TASK_TEMPLATE.md를 확인해 주세요. 좋은 태스크란 다음과 같습니다:

실제 환경 (Real-world)— 실제 사용자가 에이전트에게 요청할 법한 내용
측정 가능성 (Measurable)— 채점 가능한 명확한 성공 기준
재현 가능성 (Reproducible)— 동일한 태스크에 대해 일관된 채점 결과가 도출되어야 함
도전적 과제 (Challenging)— 단순한 LLM 지식이 아닌 에이전트의 능력을 테스트할 수 있어야 함

세션 트랜스크립트 (Session transcripts)는 결과 JSON 파일과 함께 results/{run_id}_transcripts/에 자동으로 저장됩니다. 각 태스크의 전체 에이전트 대화 내용은 사후 분석을 위해 JSONL 파일(예: task_calendar.jsonl)로 보존됩니다.

리더보드 (Leaderboard): pinchbench.com
OpenClaw: github.com/openclaw/openclaw
이슈 (Issues): github.com/pinchbench/skill/issues

MIT — 자세한 내용은 LICENSE를 참조하세요.

Claw-some AI 에이전트 테스트 🦞

Insights

pinchbench/skill

요약

핵심 포인트

댓글

Virufy: 기침을 통한 COVID-19 AI 탐지를 위한 크라우드소싱 및 임상 데이터셋의 글로벌 적용 가능성

LLM의 대안을 만들 수 있을까? 8개월, 약 200번의 실패한 실험, 그리고 하나의 벽 (Part 2)

Claude Fable 5의 토큰을 낭비하는 범인은 실증 결과 판명 — output이 아니라 cache read였다

SQL AI 데이터베이스 솔루션: Streamlit과 Hugging Face를 사용하여 안전한 Text-to-SQL 앱 구축하기

LLM의 대안을 만들 수 있을까? 8개월, 약 200번의 실패한 실험, 그리고 하나의 벽 (Part 2)

Claude Fable 5의 토큰을 낭비하는 범인은 실증 결과 판명 — output이 아니라 cache read였다

SQL AI 데이터베이스 솔루션: Streamlit과 Hugging Face를 사용하여 안전한 Text-to-SQL 앱 구축하기