본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 05. 20. 20:15

pinchbench/skill

요약

PinchBench는 LLM이 OpenClaw 에이전트로서 실제 환경에서 얼마나 잘 작동하는지 측정하는 실세계 벤치마크입니다. 합성 테스트 대신 도구 사용, 다단계 추론, 실질적인 결과 도출 등 코딩 에이전트에게 필수적인 역량을 평가합니다.

핵심 포인트

  • 합성 테스트가 아닌 회의 일정 잡기, 코드 작성, 이메일 분류 등 실제 태스크를 기반으로 평가함
  • 도구 사용 능력, 다단계 추론, 모호한 정보 처리 및 실질적 결과 생성 능력을 핵심 지표로 삼음
  • 생산성, 조사, 글쓰기, 코딩, 분석 등 다양한 카테고리의 태스크를 포함함
  • 자동 채점 및 LLM 심사위원을 통해 객관적이고 정밀한 평가를 수행함

AI 코딩 에이전트를 위한 실세계 벤치마크 (Real-world benchmarks for AI coding agents)

참고: 이 저장소는 벤치마크 기술/태스크 (skill/tasks)를 포함하고 있습니다. 공식 리더보드 (leaderboard) 결과의 소스가 아닙니다. 공식 결과에 모델을 추가하려면 pinchbench/scripts/default-models.yml을 수정하십시오.

PinchBench는 LLM 모델이 OpenClaw 에이전트의 두뇌로서 얼마나 잘 수행하는지를 측정합니다. 합성 테스트 (synthetic tests) 대신, 우리는 에이전트에게 회의 일정 잡기, 코드 작성, 이메일 분류 (triaging), 주제 조사, 파일 관리와 같은 실제 태스크를 부여합니다.

결과는 pinchbench.com의 공개 리더보드에서 수집됩니다.

대부분의 LLM 벤치마크는 고립된 능력들을 테스트합니다. PinchBench는 코딩 에이전트에게 실제로 중요한 것들을 테스트합니다:

도구 사용 (Tool usage)— 모델이 올바른 매개변수 (parameters)와 함께 올바른 도구를 호출할 수 있는가?
다단계 추론 (Multi-step reasoning)— 복잡한 태스크를 완료하기 위해 행동들을 체인처럼 연결할 수 있는가?
실세계의 복잡함 (Real-world messiness)— 모호한 지시와 불완전한 정보를 처리할 수 있는가?
실질적인 결과 (Practical outcomes)— 실제로 파일을 생성했는가, 이메일을 보냈는가, 또는 회의 일정을 잡았는가?

# skill 클론
git clone https://github.com/pinchbench/skill.git
cd skill
...

참고: 모델 ID에는 반드시 제공자 접두사 (provider prefix)가 포함되어야 합니다 (예: openrouter/, anthropic/). OpenRouter는 라우팅 (routing)을 위해 사용되는 기본 제공자입니다.

요구 사항 (Requirements):

  • Python 3.10 이상
  • uv 패키지 매니저 (package manager)
  • 실행 중인 OpenClaw 인스턴스 (instance)
카테고리 (Category)태스크 (Tasks)테스트 항목 (What's tested)
생산성 (Productivity)캘린더, 일일 요약이벤트 생성, 시간 파싱 (parsing), 일정 관리
조사 (Research)주가, 컨퍼런스, 시장웹 검색, 데이터 추출, 합성 (synthesis)
글쓰기 (Writing)블로그 포스트, 이메일, 인간화 (humanization)콘텐츠 생성, 어조 (tone), 포맷팅
코딩 (Coding)날씨 스크립트, 파일 구조코드 생성, 파일 작업
분석 (Analysis)스프레드시트, PDF, 문서데이터 처리, 요약
이메일 (Email)분류 (Triage), 검색편지함 관리, 필터링
메모리 (Memory)컨텍스트 검색 (Context retrieval), 지식 관리장기 메모리, 회상 (recall)
기술 (Skills)ClawHub, 기술 발견OpenClaw 생태계 통합

각 태스크는 자동으로 채점되거나, LLM 심사위원 (LLM judge)에 의해, 또는 두 방식 모두를 통해 채점됩니다. 이를 통해 객관적이면서도 미묘한 차이까지 잡아내는 평가 (evaluation)를 보장합니다.

리더보드 (leaderboard)에 결과를 등록하려면:

# API 토큰 등록 (1회성)
./scripts/run.sh --register
# 벤치마크 실행 — 결과가 토큰과 함께 자동 업로드됩니다
...

로컬 결과만 확인하고 싶다면 --no-upload를 사용하여 업로드를 건너뛸 수 있습니다.

공식 실행 결과(리더보드에 표시됨)를 제출하려면:

# 환경 변수 사용
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model anthropic/claude-sonnet-4
...
플래그 (Flag)설명
--model MODEL테스트할 모델 (예: openrouter/anthropic/claude-sonnet-4)
--judge MODELLLM 채점을 위한 심사위원 모델; 설정 시 직접 API를 사용합니다 (아래 참조)
--suite SUITEall, automated-only, 또는 쉼표로 구분된 태스크 ID
--runs N평균 계산을 위한 태스크당 실행 횟수
--timeout-multiplier N속도가 느린 모델을 위한 타임아웃 배수 설정
--thinking LEVEL추론 (Reasoning) 깊이: off, minimal, low, medium, high, xhigh, adaptive
--output-dir DIR결과 저장 경로 (기본값: results/)
--no-upload리더보드 업로드 생략
--register제출을 위한 API 토큰 요청
--upload FILE이전 결과 JSON 파일 업로드
--official-key KEY제출을 공식으로 표시 (또는 PINCHBENCH_OFFICIAL_KEY 환경 변수 사용)

기본적으로 (--judge 플래그 미사용 시), LLM 심사위원은 OpenClaw 에이전트 세션 (agent session)으로 실행됩니다. --judge가 지정되면, OpenClaw의 페르소나 주입 (personality injection)을 우회하여 모델 API를 직접 호출합니다.

# 기본값: OpenClaw 에이전트 세션 (--judge 불필요)
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
# OpenRouter를 통한 직접 API 호출
...

필수 환경 변수: 심사위원 모델의 접두사(prefix)에 따라 OPENROUTER_API_KEY, KILO_API_KEY, ANTHROPIC_API_KEY, 또는 OPENAI_API_KEY가 필요합니다.

새로운 태스크를 환영합니다! 형식은 tasks/TASK_TEMPLATE.md를 확인해 주세요. 좋은 태스크란 다음과 같습니다:

실제 환경 (Real-world)— 실제 사용자가 에이전트에게 요청할 법한 내용
측정 가능성 (Measurable)— 채점 가능한 명확한 성공 기준
재현 가능성 (Reproducible)— 동일한 태스크에 대해 일관된 채점 결과가 도출되어야 함
도전적 과제 (Challenging)— 단순한 LLM 지식이 아닌 에이전트의 능력을 테스트할 수 있어야 함

세션 트랜스크립트 (Session transcripts)는 결과 JSON 파일과 함께 results/{run_id}_transcripts/에 자동으로 저장됩니다. 각 태스크의 전체 에이전트 대화 내용은 사후 분석을 위해 JSONL 파일(예: task_calendar.jsonl)로 보존됩니다.

리더보드 (Leaderboard): pinchbench.com
OpenClaw: github.com/openclaw/openclaw
이슈 (Issues): github.com/pinchbench/skill/issues

MIT — 자세한 내용은 LICENSE를 참조하세요.

Claw-some AI 에이전트 테스트 🦞

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0