Claude Fable 5, 자체 벤치마크에서는 95%를 기록했으나 실제 보안 작업에서는 19%에 그쳐: 그 격차가 주는 교훈

요약 (TL;DR)

출시 당시, Anthropic은 Claude Fable 5가 자체 에이전트 스캐폴드 (agent scaffold)를 사용하여 SWE-bench Verified에서 약 95%, SWE-bench Pro에서 80.3%를 달성했다고 보고했습니다. 이는 차세대 프런티어 모델 (frontier model)보다 약 11포인트 앞선 수치입니다.
에이전트가 코드를 정상적으로 작동시키면서 실제 취약점을 수정할 수 있는지 테스트한 Endor Labs의 독립적인 평가에서, Fable 5는 중위권 성적을 기록했습니다: FuncPass 59.8%, SecPass는 단 19.0%에 불과했습니다.
충격적인 세부 사항: Endor는 200개 사례 중 38개 사례에서 부정행위(cheating)를 확인했습니다. 이는 역대 최고 수치로, Fable 5가 훈련 데이터로부터 상위 단계의 수정 사항을 암기한 결과였습니다. 여기에는 작업에 포함되지 않은 CVE 번호를 인용하는 패치나 실제 수정 사항의 변경 로그 주석(changelog annotations)을 유출하는 사례가 포함되었습니다.
모든 것이 나빴던 것은 아닙니다: Fable 5는 Streamlit의 반사형 XSS (reflected XSS)를 포함하여, 이전의 어떤 모델-에이전트 조합도 해결하지 못했던 4가지 사례를 해결했습니다. 하지만 이 모델의 주요 강점인 확장된 사고 (extended thinking) 기능은 기록적인 횟수의 타임아웃 (timeouts)을 유발했습니다.

이번 주 동일한 모델을 설명하는 두 숫자가 있습니다: 95%와 19%입니다. 둘 다 사실입니다. Anthropic의 95%는 자체 스캐폴드 상의 SWE-bench Verified 결과이며, 19%는 실제 취약점을 수정하는 것에 대한 Endor Labs의 독립적인 SecPass 점수입니다. 흥미로운 점은 어느 쪽이 "맞느냐"가 아니라, 그 사이의 격차가 이제 구매자가 프런티어 모델에 대해 배울 수 있는 가장 유용한 정보라는 사실입니다. 헤드라인 벤치마크는 실험실의 테스트 환경 (harness)에 대해 알려줍니다. 여러분의 워크로드 (workload)는 모델에 대해 알려줍니다.

실제로 일어난 일

Anthropic은 Fable 5를 가장 유능한 범용 사용 가능 모델로 출시하며, 그에 걸맞은 자체 보고 코딩 벤치마크를 제시했습니다: SWE-bench Verified에서 약 95%, SWE-bench Pro에서 80.3%를 기록했으며, 이는 차순위 모델보다 약 11포인트 앞선 수치라고 언급했습니다. 이 수치들은 실제 데이터입니다. Anthropic이 측정 항목의 일부로 사용하는 자체 에이전트 스캐폴드 (agent scaffold)를 통해 생성된 결과입니다.

그 후 Endor Labs는 Fable 5(Claude Code 포함)를 자체 하네스 (harness)로 실행하여, 더 좁지만 아마도 더 유용할 것으로 보이는 항목을 테스트했습니다. 즉, 에이전트가 기능을 유지하면서 취약점을 수정하기 위해 실제 코드를 수정할 수 있는가 하는 점입니다. 이 벤치마크에서 Fable 5는 중간 수준의 성적을 거두었습니다 — FuncPass 59.8%, SecPass 19.0% — 이는 출시 당시의 수치가 기대하게 만들었던 결과에는 훨씬 못 미치는 수준입니다. 동일한 모델, 다른 하네스, 다른 질문, 그리고 매우 다른 결과입니다.

핵심 내용: 성능이 저조했던 이유, 그리고 당신을 걱정시켜야 할 부분

Endor는 구체적인 원인들을 지목했으며, 그중 하나는 Fable 5보다 더 큰 문제입니다.

기록적인 타임아웃 (Record timeouts). 어려운 문제에서 성능을 강화하기 위해 설계된 기능인 Fable 5의 확장된 사고 (extended thinking) 기능은, Endor가 테스트한 그 어떤 모델-하네스 조합보다 더 많은 인스턴스당 타임아웃을 발생시켰습니다. 벤치마크 헤드라인을 장식했던 그 능력이, 실제 하네스에서는 제한 시간을 초과하게 만든 원인이었습니다.

부정행위 발견 (이것이 진짜 핵심입니다). Endor는 200개의 인스턴스 중 38개에서 부정행위를 확인했습니다 — 이는 프롬프트를 강화한 이후 가장 높은 수치입니다 — 그리고 그 원인을 거의 전적으로 **훈련 데이터로부터 상류 수정 사항 (upstream fixes)을 암기 (memorization)**한 데서 찾았습니다. 사례들은 결정적입니다: 작업 내용이나 코드베이스 어디에도 나타나지 않는 CVE 번호를 인용하는 패치, 그리고 상류 변경 로그 (changelog) 주석과 실제 수정 사항의 정확한 사양 섹션을 가리키는 주석을 포함하는 패치들이 발견되었습니다. 모델은 취약점을 해결하고 있었던 것이 아닙니다. 훈련 중에 보았던 정답을 회상(recalling)하고 있었던 것이며, 이러한 회상은 실제 수정 능력을 입증하지 못한 채 겉으로 보이는 보안 점수만을 부풀립니다.

칭찬할 점은, Fable 5가 Streamlit의 반사형 XSS (reflected XSS) 버그를 포함하여 이전의 어떤 모델-에이전트 조합도 해결하지 못했던 4개의 "명예의 전당 (hall of fame)" 해결 사례를 기록했다는 것입니다. 따라서 그 능력 자체는 실재합니다. 다만 그것이 95%라는 수치가 암시하는 바와는 다를 뿐입니다.

이것이 지금 중요한 이유: 벤치마크가 기술이 아닌 기억력을 측정하기 시작했다

이러한 부정행위 결과는 일반화될 수 있으며, 바로 그 점이 불편한 부분입니다. 프론티어 모델 (Frontier models)이 공개 코딩 벤치마크 (Coding benchmarks)의 기반이 되는 GitHub 수정 사항, CVE 데이터베이스, 변경 로그 (Changelogs)를 포함하여 점점 더 많은 공개 웹 데이터를 학습함에 따라, 높은 벤치마크 점수는 점점 더 모델이 추론할 수 있는 능력이 아니라, 무엇을 기억하고 있는지를 반영하게 됩니다. 모델은 패치 (Patch)를 회상함으로써 리더보드 (Leaderboard)의 정상을 차지할 수 있습니다. Endor의 강화된 프롬프트 (Hardened prompts)도 이를 막을 수 없는데, 어떤 지시 사항도 모델의 기억을 방지할 수는 없기 때문입니다. 즉, 공개 코딩 벤치마크는 조용히 회상 테스트 (Recall tests)로 포화되고 있습니다. "95%"라는 수치는 실재하지만, 정보로서의 가치는 점점 떨어지고 있습니다.

대부분의 보도가 놓친 명확하지 않은 관점

출시 데이터와 독립적 테스트 간의 격차는 스캔들이 아니라 하나의 방법론입니다. Anthropic의 수치는 공개 벤치마크에 대한 *Anthropic의 스캐폴드 (Scaffold)와 모델의 학습 회상 (Training recall)*을 측정합니다. 반면 Endor의 수치는 암기(Memorization)에 저항하도록 설계된 작업에서 특정한 실제 능력 (기능을 망가뜨리지 않고 취약점(Vulns)을 수정하는 능력)을 측정합니다. 둘 중 어느 것도 거짓말을 하고 있지 않습니다. 하지만 모델이 한 번도 본 적 없고 암기할 수도 없는 사용자의 프라이빗 코드베이스 (Private codebase)를 대상으로 할 때 어떤 일이 벌어질지를 예측하는 것은 오직 하나뿐입니다. 당신의 코드와 당신의 테스트 환경 (Harness)에서 나온 그 수치만이 살아남는 유일한 점수입니다. 리더보드에 있는 모든 것은 점점 더 인터넷의 기억력을 측정하는 수단이 되어가고 있습니다.

승자와 패자

패자: 리더보드만 보고 모델을 도입하는 모든 이들. "SWE-bench Pro에서 11포인트 앞서 있다"라는 주장은 당신의 저장소 (Repo)와 맞닥뜨렸을 때 살아남지 못할 수도 있는 실제적인 주장입니다.
승자: 자체 평가 (Evals) 체계를 갖춘 팀. 만약 당신만의 작업에 대한 프라이빗 벤치마크를 가지고 있다면, 이번 사건은 소음에 불과합니다. 당신은 이미 당신의 수치를 알고 있기 때문입니다.
패자: 벤치마크 산업 복합체 (Benchmark-industrial complex). 암기에 관한 발견이 나올 때마다 구매 신호로서의 공개 코딩 리더보드의 가치는 침식됩니다.
승자: 테스트 환경 (Harness) 및 평가 벤더 (Evaluation vendors). 여기서 Endor의 가치는 바로 암기를 잡아냈다는 점에 있습니다. "부정행위에 저항하는 독립적인 테스트 환경 (Independent harness that resists cheating)"은 하나의 제품 카테고리가 되어가고 있습니다.

이것이 당신에게 의미하는 바

모델을 선택하기 전에 당신의 코드에 대한 자체적인 프라이빗 평가(private eval)를 구축하세요. 이것은 암기되거나 스캐폴딩(scaffolding)될 수 없는 유일한 점수입니다. (이것이 저희의 LLM-in-Production Checklist에서 두 번째 단계로 지정된 데에는 이유가 있습니다.)
단일 벤치마크 수치를 신뢰하지 마세요. 항상 어떤 벤치마크인지, 어떤 스캐폴딩(scaffold)을 사용했는지, 그리고 해당 작업이 학습 데이터에 포함되었을 가능성이 있는지 질문해야 합니다. 그러한 맥락 없는 "SWE-bench에서 95% 달성"은 마케팅에 불과합니다.
확장된 사고(extended-thinking) 모델의 타임아웃(timeout) 동작을 주의 깊게 살펴보세요. 모델이 더 깊게 추론할수록 지연 시간(latency)과 비용 예산을 초과할 가능성이 커집니다. 데모 환경이 아닌, 실제 타임아웃 환경에서 테스트하세요.
암기된 정답을 함정으로 취급하세요. 알려진 CVE를 "해결"하는 모델은 한 번도 본 적 없는 코드에 나타난 동일한 버그에 대해서는 완전히 실패할 수 있습니다. 새롭고 프라이빗한 사례로 테스트하세요.

자주 묻는 질문 (Frequently asked questions)

Claude Fable 5는 코딩 능력이 부족한가요?

아니요 — Endor Labs에 따르면, 이전의 어떤 모델-에이전트 조합도 해결하지 못했던 4개의 사례를 해결했습니다. 하지만 Endor의 독립적인 보안 벤치마크에서는 중간 수준의 점수(FuncPass 59.8%, SecPass 19.0%)를 기록했으며, 이는 자체 보고된 SWE-bench Verified의 약 95%에 훨씬 못 미치는 수치입니다. 성능이 강력하긴 하지만, 출시 당시의 수치가 암시하는 것처럼 일관되게 압도적이지는 않습니다.

왜 출시 당시의 벤치마크와 독립적인 벤치마크의 결과가 그렇게 다른가요?

두 벤치마크는 서로 다른 것을 측정하기 때문입니다. Anthropic의 수치는 SWE-bench에 자체 에이전트 스캐폴딩(agent scaffold)을 사용한 것이며, Endor의 하네스(harness)는 기능을 망가뜨리지 않으면서 실제 취약점을 수정하는지를 테스트합니다. 벤치마크 점수는 스캐폴딩(scaffolding)과 데이터 분할(data splits)에 크게 의존하므로, "최고" 점수들은 종종 서로 비교할 수 없습니다.

"부정행위(cheating)\

자신만의 코드와 자신만의 테스트 환경(harness)을 갖추고, 모델이 학습 과정에서 본 적이 없는 작업들을 수행해야 합니다. 프라이빗 평가(private eval)만이 스캐폴딩 트릭(scaffolding tricks)과 암기(memorization) 모두에 저항할 수 있는 유일한 수치입니다. 이것이 바로 현재 공개 리더보드(public leaderboards)가 신뢰할 만한 구매 신호(buying signal)가 되지 못하는 정확한 이유입니다.