Opus 4.8, 기술 평가에서 95%를 기록하며 LLM 리더보드 1위 차지

우리는 진행 중인 모델 벤치마크(benchmark)에 Claude Opus 4.8을 추가했습니다. 이 모델은 기술 컨텍스트(skill context)에서 95%를 기록하며, Opus 4.7보다 1.6포인트, Cursor의 Composer 2.5 Fast보다 2.3포인트 높은 점수를 받았습니다. 또한, 우리가 테스트한 모델 중 유의미한 차이로 가장 느린 모델이기도 합니다.

요약 (TL;DR)

Opus 4.8은 기술 컨텍스트(skill context)에서 95%를 기록하며 Opus 4.7을 제치고 1위를 차지했습니다.
81%의 베이스라인(baseline) 점수는 이 벤치마크에서 기록된 역대 최고치이며, 다른 모든 모델보다 높고 모델들이 기술(skills)을 로드하여 평가를 수행할 때도 최고 수준을 유지합니다.
세 명의 독립적인 판사(judges) 모두 2포인트 이내의 일치된 결과를 보였으며, 이는 9개 모델을 통틀어 가장 좁은 편차입니다. 이전의 변동성이 큰 모델들은 판사들 사이에 7포인트 이상의 차이를 보였습니다.
동일한 실행 조건에서 Opus 4.8은 평가당 약 671초가 소요됩니다. Composer 2.5는 동일한 쌍에서 평균 327초가 소요됩니다. Composer 2.5 Fast는 평균 215초가 소요됩니다.

벤치마크 작동 방식

우리는 일련의 엔지니어링 기술(engineering skills)을 대상으로 모델을 테스트합니다. 각 기술은 에이전트(agent)가 특정 도메인에서 올바르게 작업하는 방법을 알려주는 구조화된 컨텍스트 문서(context document)입니다. 이 벤치마크의 11가지 기술은 다음을 포함합니다: API 문서화(API documentation), Fastify 서버 패턴(Fastify server patterns), 프로젝트 초기화(project initialisation), ESLint/neostandard 린팅(linting), Node.js 베스트 프랙티스(best practices), Node.js 코어 기여 컨벤션(core contribution conventions), OAuth 2.0 보안 패턴(security patterns), Octocat API를 통한 GitHub 자동화(GitHub automation), 기술 최적화(skill optimisation), Snipgrapher를 이용한 코드 스니펫 렌더링(code snippet rendering), 그리고 TypeScript 설정(TypeScript configuration).

각 기술에는 5개의 시나리오가 있습니다. 각 시나리오는 두 번 실행됩니다: 한 번은 기술이 로드된 상태(with-skill)로, 한 번은 로드되지 않은 상태(baseline)로 실행됩니다. 이를 통해 리프트 점수(lift score, 기술 컨텍스트가 실제로 얼마나 도움이 되는지)를 산출합니다. 모든 실행은 세 명의 LLM 판사(Sonnet, GPT-5.5, Opus 4.7)에 의해 독립적으로 채점되며, 우리는 그 결과를 평균냅니다. 왜 세 명의 판사를 사용하는지, 그리고 한 명만 사용할 경우 어떤 일이 발생하는지에 대해서는 이전 포스트에서 다루었습니다. 짧게 요약하자면, 단일 판사는 해당 모델 제품군(model family)이 무엇인지에 따라 결과를 7포인트 이상 뒤흔들 수 있습니다.

Opus 4.8의 위치

모델	평균 Baseline (기본값)	평균 With-Skill (기술 포함)	Lift (상승폭)
claude:claude-opus-4-8	81.0%	95.0%	+14.0
...

Opus 4.8, Opus 4.7, 그리고 Composer 2.5 Fast는 이제 다른 경쟁 모델들과 의미 있는 격차를 벌렸습니다. Composer 2.5 미만의 모든 모델은 89-90% 또는 그 이하에 머물러 있으며, 이는 지난 여러 차례의 벤치마크 (benchmark) 실행 과정에서 안정적으로 유지되어 온 약 3포인트의 격차입니다.

Baseline 수치

Opus 4.8은 어떠한 기술 컨텍스트 (skill context) 없이도 81%의 점수를 기록합니다. 이는 Composer 2.5, GPT-5.5, GPT-5.4, 그리고 기술이 로드된 상태의 다른 모든 경쟁 모델들보다 높은 수치입니다. 이 벤치마크에 포함된 다른 모든 모델은 Opus 4.8이 시작하는 바닥점 (floor)에 도달하기 위해 스캐폴딩 (scaffolding)이 필요합니다.

기술 배치 (skill deployment)에 대한 시사점은 명확히 짚고 넘어갈 가치가 있습니다. 성능이 낮은 Baseline 모델들은 기술 컨텍스트로부터 더 큰 절대적 가치를 얻는데, 이는 그들에게 기술이 더 절실하기 때문입니다. 예를 들어, gpt-5.3은 65.5%에서 시작하여 18.4포인트라는 가장 큰 상승폭 (lift)을 보여줍니다. Opus 4.8은 +14의 상승폭을 보이지만, 시작점이 81%라는 점에서 이는 다른 범주의 바닥점을 가집니다. 즉, 기술이 약한 모델을 보완하는 것이 아니라, 강력한 모델을 더욱 더 멀리 밀어 올리고 있는 것입니다.

기술별 세부 분석 (Per-skill breakdown)

기술	Baseline (기본값)	With-Skill (기술 포함)	Lift (상승폭)
linting	99%	99%	+0
...

제가 모델들을 대상으로 실행한 기술들 (시나리오 포함)을 확인해 보십시오.

Linting (린팅)은 기술의 유무와 상관없이 거의 완벽합니다. 평가 루브릭 (rubric)이 파일 삭제 여부나 패키지 제거 여부와 같은 이진 결과 (binary outcomes)를 확인하기 때문에, 판사들이 이견을 제시할 여지가 없으며 기술이 포함된 실행에서도 모델이 실패할 여지가 거의 없습니다.

Snipgrapher는 예외적인 사례입니다. 기술적 맥락 (skill context)이 없을 때 58%였던 베이스라인 (baseline)이 기술이 포함되면서 94%로 상승했는데, 이는 36포인트의 상승폭이며 우리가 어떤 모델의 어떤 기술에서 기록한 것 중 가장 큰 수치입니다. Snipgrapher는 에이전트 (agents)에게 이전에 접해본 적 없는 렌더링 사양 (rendering specification)을 따를 것을 요구합니다. 따라서 대부분의 에이전트가 해당 기술 없이 근사치를 내놓는 반면, 기술이 있으면 사양을 정확히 따릅니다. 이 격차가 이토록 큰 이유는 해당 도구가 진정으로 생소하여 학습 신호 (training signal)가 전혀 없기 때문입니다.

Node 베스트 프랙티스 (best practices) 또한 +25포인트라는 유사한 패턴을 따릅니다. 69%의 베이스라인은 모델이 일반적인 코딩 지식만으로 얼마나 많은 것을 추론해야 하는지를 반영합니다. 기술은 점수를 94%까지 끌어올리는 구체적인 관용구 (idioms)와 패턴을 제공합니다.

TypeScript 결과는 반복되는 문제입니다. Opus 4.7과 Composer 2.5 모두 이 기술에서 퇴보 (regression)를 보였습니다. TypeScript에 대한 모델 자체의 가정이 기술의 가이드를 바탕으로 구축되기보다는 오히려 기술과 충돌하는 것으로 보입니다. 베이스라인 81%에서 기술 포함 시 86%에 그친 Opus 4.8은 다른 모든 기술이 최소 9포인트의 상승을 기록한 것과 대조적으로 단 5포인트의 상승만을 기록했습니다. 이러한 패턴은 모델 전반에 걸쳐 충분히 일관되게 나타나며, 이는 모델의 문제라기보다 기술 설계 (skill design)의 문제임을 시사합니다. 만약 TypeScript 설정이 귀하의 워크플로우 (workflow)에서 핵심적이라면, 배포하기 전에 이 부분을 조사해 볼 가치가 있습니다.

판사들의 의견이 일치했는데, 이는 이례적인 일입니다

판사들에 관한 게시물에서 우리는 세 명의 판사 사이에서 Opus 4.7의 점수가 7.3포인트의 변동을 보였다고 기록했습니다. GPT-5.5는 89.2%로 평가한 반면, Opus는 스스로에게 96.5%를 부여했습니다. 우리는 Opus가 판사 역할을 할 때 나타난 높은 점수의 원인을 부분적으로 자기 평가 편향 (self-judge bias) 때문이라고 보았습니다. Opus는 다른 판사들이 부여한 점수보다 스스로에게 4.6포인트 더 높은 점수를 주었습니다.

Opus 4.8의 경우 그 편차는 단 2포인트였습니다. Sonnet은 96%, Opus 4.7은 95%, GPT-5.5는 94%를 부여했습니다. 이는 우리가 이 벤치마크 (benchmark)에서 확인한 어떤 모델에 대해서도 본 적 없는 가장 긴밀한 판사 간 합의입니다. 엄격한 판사와 관대한 판사는 정답이 해석의 여지를 남기지 않을 때 수렴합니다. Opus 4.8은 우리가 테스트한 그 어떤 모델보다 더 일관되게 그 지점에 도달했으며, 이것이 바로 판사들이 더 이상 의견을 달리하지 않게 된 이유입니다.

이는 평가 비용 (eval cost) 측면에서도 시사하는 바가 있습니다. 일관되게 모호하지 않은 출력을 생성하는 모델은 점수 인플레이션 (inflation)의 위험 없이 단일한 엄격한 판사 (strict judge)만으로도 잠재적으로 점수를 매길 수 있습니다. 귀하의 특정 루브릭 (rubrics)에 대해서는 여전히 검증이 필요하겠지만, 데이터에 따르면 여기서 세 명의 판사를 사용하는 오버헤드 (overhead)는 이전 모델들에서 필요했던 것보다 덜 필수적임을 시사합니다.

속도는 더 느리며, 그 비용은 복리로 증가합니다

우리는 동일한 기술 및 판사 쌍에 대해 타이밍 (timing)을 측정했습니다. 이는 두 모델 모두에 대해 동일한 시나리오와 판사를 사용하여 공정한 비교를 보장하기 위함입니다. Opus 4.8은 평가 실행당 평균 671초를 기록했습니다. Composer 2.5는 동일한 쌍에서 평균 327초를 기록했으며, Composer 2.5 Fast는 평균 215초를 기록하여 대략 2~3배 더 빨랐습니다.

일회성 작업의 경우 지연 시간 (latency)은 거의 느껴지지 않습니다. 하지만 수백 개의 순차적 작업이 이어지는 에이전틱 루프 (agentic loop)에서는, Composer 2.5 Fast가 Opus 4.8이 한 번 완료하는 동안 세 번의 전체 실행을 완료하며, 이러한 격차는 규모가 커짐에 따라 몇 시간 단위로 벌어집니다.

작업의 정확도가 후속 결과에 영향을 미치는 경우에는 이를 선택하십시오. 처리량 (throughput)이 제약 조건인 경우에는 Composer 2.5 Fast가 3배 더 빠르면서도 점수 차이는 2.3점에 불과합니다.

이 수치들이 산출된 방식

이 포스트의 모든 점수는 세 명의 독립적인 판사인 Sonnet, GPT-5.5, Opus 4.7의 평균값입니다. 우리는 단일 판사의 점수는 공개하지 않습니다. Opus 4.8 실행은 이 벤치마크의 모든 이전 모델과 동일하게 기술당 11개의 기술 (skills)과 5개의 시나리오 (scenarios)를 사용했으므로 직접적인 비교가 가능합니다.