David가 Terminal-Bench 2.1에서 Goliath를 꺾다

이야기에 따르면 Goliath는 갑옷을 입고 군대를 거느리고 나타났으며, 모두가 이미 승패가 결정되었다고 생각했습니다. 하지만 대신 물매를 든 목동이 걸어 나왔고, 상대의 크기는 더 이상 중요한 것이 아니게 되었습니다.

이번 주 Terminal-Bench 2.1에서 일어난 일이 기본적으로 이와 같습니다.

설정 (The setup)

Terminal-Bench 2.1은 프론티어 연구소(frontier labs)들이 실력을 과시하러 오는 곳입니다. 이곳에는 코드 컴파일, 깨진 빌드 디버깅(debugging), 서버 구성, 손상된 데이터 복구, 모델 학습 등 89개의 어렵고 현실적인 터미널 작업이 준비되어 있습니다. 객관식도 없고, 부분 점수도 없습니다. 독립적인 검증기(verifier)가 최종 상태를 확인하며, 통과하거나 통과하지 못하거나 둘 중 하나입니다.

리더보드 상위권에 있는 이름들은 예상 가능한 것들입니다: Codex CLI, Claude Code 등이며, 이들은 9자리 수의 컴퓨팅 예산을 가진 팀들과 돈으로 빌릴 수 있는 가장 큰 모델들의 지원을 받습니다. 이곳은 Goliath의 영역입니다.

이변 (The upset)

이번 주, 소규모 오픈 소스(open-source) 터미널 에이전트인 Backboard R-CLI가 다른 모든 이들이 접근할 수 있는 것과 동일한 기성 모델(Bedrock을 통한 Claude Opus 4.8)을 가지고 나타나 #1 공개 점수를 기록했습니다: 89개 작업 중 75개를 해결하여 **84.3%의 정확도(accuracy)**를 달성했습니다.

순위	에이전트 (Agent)	모델 (Model)	정확도 (Accuracy)
1	Backboard R-CLI	Claude Opus 4.8	84.3%
...

동일한 모델, 다른 하네스(harness). R-CLI는 차순위 Opus 4.8 결과보다 5.4포인트 앞섰습니다. 이 격차는 모델이 말하는 것이 아닙니다. 그것은 모델을 둘러싼 시스템, 즉 싸우는 사람의 크기가 아니라 '물매'입니다.

물매가 효과적이었던 이유

더 큰 칼이 아니라, 더 나은 메커니즘이 핵심입니다:

적응형 사고 (Adaptive thinking): 파일 목록을 확인하는 데 디버깅 수준의 추론(reasoning) 예산을 소비하지 않습니다.
적응형 컨텍스트 관리 (Adaptive context management): 작업이 길어짐에 따라 중요한 것은 유지하고 중요하지 않은 것은 버립니다.
더 스마트한 도구 사용 (Smarter tool use): 낭비되는 명령어를 줄이고, 막다른 길을 헤매는 것을 최소화합니다.
재사용 및 캐싱 (Reuse and caching): 매 단계마다 컨텍스트를 처음부터 다시 구축하지 않습니다.
조기 수렴 (Early convergence): 좋은 답안을 두고 다시 의심하는 대신, 작업이 실제로 완료되면 멈춥니다.

이 중 어느 것도 이례적인 것은 아닙니다. 이는 일관되게 적용된 절제된 엔지니어링 (disciplined engineering)이며, 최신 모델을 기반으로 한 래퍼 (wrapper)를 출시하기 위해 경주하듯 달려갈 때 쉽게 건너뛰기 쉬운 종류의 작업입니다.

스크린샷이 아닌 영수증 (Receipts, not screenshots)

우리가 가장 중요하다고 생각하는 부분은 다음과 같습니다: 모든 것이 공개되어 있습니다. 작업 수준의 검증기 보고서 (verifier reports), 실행 설정 (run configs), 통과/실패 결과, 전체 로그가 포함됩니다. 누구나 검사하거나 오류를 찾아낼 수 있도록 전체 내용이 GitHub에 공개되어 있습니다.

근거가 없는 벤치마크 수치는 단순한 주장일 뿐입니다. 하지만 이번 사례는 그렇지 않습니다. David는 누구나 집어 들어 검토할 수 있는 돌을 가져왔습니다.

전체 글 읽기

🔗 https://backboard.io/blog/backboard-r-cli-is-now-1-on-terminal-bench-2.1

가서 허점을 찾아보세요. 그것이 바로 목적입니다.

Insights

David가 Terminal-Bench 2.1에서 Goliath를 꺾다

요약

핵심 포인트

설정 (The setup)

이변 (The upset)

물매가 효과적이었던 이유

스크린샷이 아닌 영수증 (Receipts, not screenshots)

전체 글 읽기

댓글

장기 투자자들은 SpaceX (SPCX) 대신 Microsoft (MSFT)를 매수해야 하는가

수학적 추론에서 프로세스 보상 모델 (Process Reward Models)을 개발하며 얻은 교훈

Claude Opus 4.7을 사용하여 주요 티켓팅 플랫폼의 치명적인 API 결함 발견

230만 개의 Claude Fable 5 추론 트레이스를 Qwen3-4B로 증류(Distill)했습니다

수학적 추론에서 프로세스 보상 모델 (Process Reward Models)을 개발하며 얻은 교훈

Claude Opus 4.7을 사용하여 주요 티켓팅 플랫폼의 치명적인 API 결함 발견

230만 개의 Claude Fable 5 추론 트레이스를 Qwen3-4B로 증류(Distill)했습니다