Terminal-Bench 2.0에서의 Atlarix vs opencode — 동일한 모델, 하네스(harness)만 변경됨 (k=1, 영수증

요약

Atlarix와 opencode 하네스를 사용하여 동일한 오픈 웨이트 모델의 성능을 Terminal-Bench 2.0에서 비교 실험했습니다. 실험 결과 두 하네스 간의 성능 차이는 통계적 노이즈 범위 내에 있으며, 하네스가 모델의 병목 현상을 일으키지 않음을 시사합니다.

핵심 포인트

동일 모델(minimax-m3) 사용 시 Atlarix(47%)와 opencode(44%)의 성능 차이는 미미함
k=1 실험 결과는 통계적 노이즈 범위 내에 있어 우열을 가리기 어려움
하네스(검색, 도구 표면, 제어 루프)가 모델 성능의 주요 병목이 아님을 확인
실험의 투명성을 위해 모든 출력 파일과 상세 설정을 공개함

Benchmarks

저는 오픈 웨이트 모델 (open-weight models)을 위한 에이전트 워크스테이션인 Atlarix를 구축하고 있습니다. 이 프로젝트의 핵심 주장은 모델의 가공되지 않은 가중치 (raw weights)뿐만 아니라, 검색 (retrieval), 도구 표면 (tool surface), 제어 루프 (control loop)와 같은 하네스 (harness)가 오픈 웨이트 모델의 성능을 끌어올린다는 것입니다. 이 포스트는 통제된 실행을 통해 해당 주장을 반증(falsify)하려는 시도이며, 여러분이 확인할 수 있도록 모든 출력 파일을 공개합니다.

요약 버전: Terminal-Bench 2.0에서 단일 시도 시, Atlarix는 42/89를 해결했고 opencode는 동일한 모델에서 39/89를 해결했습니다. 이 3개 작업의 차이는 k=1 노이즈 범위 내에 있습니다 — 제가 승리를 주장하는 것은 아닙니다. 이것이 보여주는 것은 하네스 (harness)가 모델의 병목 현상 (bottlenecking)을 일으키지 않는다는 점입니다. 세부 사항과 주의 사항은 아래에 있으며, 원본 파일은 마지막에 있습니다.

실험

유일한 변수는 하네스 (harness)입니다. 그 외의 모든 것은 두 에이전트 간에 동일하게 고정되었습니다.

벤치마크 (Benchmark): terminal-bench/terminal-bench-2 — 89개 작업 전체, 각 작업당 하나의 격리된 컨테이너, 자동 검증기 (automated verifiers).
모델 (Model): minimax/minimax-m3, OpenRouter를 통해 라우팅되며, 두 하네스 모두 fp8의 단일 제공업체로 고정되었습니다.
인프라 (Infrastructure): Modal 상의 Harbor (-e modal), 작업당 하나의 컨테이너.
시도 (Attempts): 단일 시도, -k 1.
타임아웃 (Timeout): 네이티브, --timeout-multiplier 1 (양쪽 모두 동일).
재시도 (Retries): --max-retries 3 (양쪽 모두 동일).
도구 호출 (Tool calling): 네이티브 함수 호출 (function-calling) 강제, 텍스트-도구 심 (text-tool shim) 없음.

명령어

# Atlarix 하네스 (harness)
harbor run -d terminal-bench/terminal-bench-2 \
  -m openai/minimax/minimax-m3 \
...

(-n 24는 동시성 (concurrency) — 즉, 얼마나 많은 컨테이너가 병렬로 실행되는지를 나타내며 — 작업 수가 아닙니다. 89개 작업이 모두 실행됩니다.)

결과

하네스 (Harness)	해결 (Resolved)	점수 (Score)
Atlarix	42 / 89	47%
opencode	39 / 89	44%

표를 읽기 전에 이것을 읽으세요

k=1은 태스크당 하나의 샘플을 의미합니다. Terminal-Bench 공식 리더보드(leaderboard)는 실행 간의 분산(run-to-run variance)을 측정하기 위해 구체적으로 k=5를 요구합니다. k=1에서의 3개 태스크 차이는 해당 노이즈 범위(noise band) 내에 있습니다. 따라서 이것은 리더보드 결과가 아니며, Atlarix가 opencode를 이겼다는 주장도 아닙니다. 솔직한 결론은 다음과 같습니다: 오픈 웨이트 (open-weight) 모델은 강력한 기존 하네스 (harness) 환경에서와 거의 비슷하게 Atlarix 환경에서도 성능을 발휘하며, 하네스가 모델의 성능을 저해하고 있지는 않다는 것입니다.

두 하네스 모두 태스크의 ~25%가 시간 초과 (timeout) 되었습니다. 기본 타임아웃 (×1) 설정에서, 양측 모두 태스크의 약 4분의 1이 AgentTimeoutError에 도달하여 미해결 상태로 처리되었습니다. 따라서 50% 미만의 절대 점수는 모두 능력의 실패가 아닙니다. 상당 부분은 무거운 태스크를 수행하는 동안 발생한 실제 실행 시간 (wall-clock) 문제 때문입니다. 타임아웃 상한선은 두 에이전트 모두 동일하므로 비교는 공정하게 유지되지만, 이것이 두 수치 모두 높지 않은 이유입니다.

단 하나의 설정 변경 사항 (투명한 공개)

Atlarix의 데스크톱 앱은 모든 파일 쓰기 및 명령 실행 전에 인간의 승인을 요청하는데, 이는 핵심적인 안전 기능 (safety feature)입니다. 벤치마크는 무인(unattended) 상태로 실행되므로, 저는 명시적인 운영자 플래그 (ATLARIX_AUTONOMOUS_DANGER=1)를 통해 승인을 한 번 부여했습니다. 이 플래그가 없으면 설치나 권한이 필요한 명령이 요구되는 모든 태스크는 차단되어 실패합니다.

이는 opencode에 비해 갖는 이점이 아닙니다. 자동화된 벤치마크를 실행할 때 모든 에이전트는 자동 승인을 거치며, 이는 무인 실행 시 발생하는 본질적인 부분입니다. 완전한 투명성을 위해 이를 명시합니다. 해당 플래그는 기본적으로 꺼져 있으며, 대화형 앱은 항상 승인을 요청합니다.

재현 방법

제가 실행한 정확한 Atlarix 번들은 공개된 Electron 미포함 헤드리스 (headless) 빌드인 atlarix-headless-linux-amd64.tar.gz입니다. 벤치마크는 오픈 소스 Harbor 프레임워크를 사용했습니다. 두 하네스에 대한 태스크별 통과/실패 여부가 담긴 가공되지 않은 Harbor 결과 파일들은 수정 없이 공개되었습니다. 수동으로 입력한 데이터는 없습니다.

모든 것(양측의 원본 result.json, summary.csv, 정확한 번들, 전체 설정): atlarix.dev/benchmark

다음 단계

더 많은 오픈 웨이트 (open-weight) 모델들, 따라서 특정 모델에 의존하지 않습니다.
공식 Terminal-Bench (k=5) 제출 — 로드맵에 포함되어 있습니다.
터미널 작업 이외의 더 많은 벤치마크 (benchmarks).

결과 파일에서 잘못된 점을 발견하신다면, 그것이 바로 핵심입니다 — 저에게 알려주세요.

나이로비에서 제작됨.

AI 자동 생성 콘텐츠

원문 바로가기