ByteDance Seed 2.1이 보여주는 AI 평가 축의 '완수'로의 이동

요약

ByteDance의 Seed 2.1 발표를 통해 AI 평가 축이 단순 정답률에서 실무 완수 능력으로 이동하고 있음을 분석합니다. GDPVal과 같은 새로운 벤치마크는 모델이 실제 직업적 과업을 엔드 투 엔드로 수행할 수 있는지를 측정하는 데 집중합니다.

핵심 포인트

AI 평가 기준이 단일 문제 정답률에서 업무 완수율로 변화 중
Seed 2.1은 코드베이스 전체 이해와 풀 사이클 수행 능력을 강조
GDPVal은 실제 직업 실무를 기반으로 결과물의 완성도를 평가
단순 벤치마크 점수를 넘어 실질적인 납품물 생성 능력이 중요해짐

새로운 코딩 모델이 나오면 가장 먼저 찾는 것은 SWE-Bench의 수치다. 몇 %를 획득했는지, 이전 세대보다 몇 포인트 상승했는지 말이다. 그런데 ByteDance가 6월 23일에 발표한 Seed 2.1의 공식 블로그를 읽어보면, 그 '늘 보던 숫자'가 거의 주인공이 아니다. 대신 나열된 것은 GDPVal, Workspace Bench, MobileWorld와 같이 생소한 벤치마크(Benchmark) 이름들이다. 이는 놓치면 손해를 볼 만한 변화라고 생각한다. 모델을 채택하는 입장에서 어떤 벤치마크를 측정했는지를 신뢰할지는, 최종적으로 무엇을 출하할 수 있는지와 직결되기 때문이다.

ByteDance는 Seed 2.1의 설계 사상을 돌려 말하지 않고 다음과 같이 기술하고 있다.

users need models that can carry tasks through end-to-end toward a defined goal and deliver usable outcomes

사용자가 원하는 것은 정의된 목표를 향해 태스크를 엔드 투 엔드(end-to-end)로 수행하여 사용할 수 있는 결과물을 내놓는 모델이라는 것이다. 코딩에 대해서도 "코드베이스 전체의 아키텍처(Architecture)·의존 관계·비즈니스 로직을 이해할 수 있음"을 내세우며, 요구사항 분석·기능 구현·버그 수정·환경 구축·결과 검증이라는 일련의 흐름(full-cycle)을 돌릴 수 있다는 점을 강점으로 내세우고 있다.

이 지점이 핵심이다. 기존 벤치마크의 상당수는 잘려 나온 한 문제에 얼마나 정확하게 답하는지를 측정해 왔다. SWE-Bench조차 주어진 이슈(issue)에 대한 패치(patch) 한 번의 정오답이 중심이다. 이에 반해 Seed 2.1이 전면에 내세우는 것은 긴 절차를 스스로 계획하고, 도중에 막히면 자기 수복(self-repair)을 하며 목표까지 도달하는 '완수' 능력이다. 한 문제의 정확도가 아니라, 업무의 완료율. 평가의 척도가 그쪽으로 움직이고 있다.

나열된 벤치마크 중 외부 표준으로서 내용이 명확한 것이 GDPVal이다. 이는 ByteDance가 아니라 OpenAI가 2025년에 공개한 벤치마크로, 논문과 해설이 나와 있다.

무엇이 독특하냐면, 문제가 '실재하는 직업의 실무'로부터 만들어졌다는 점이다. 미국 GDP에 기여하는 상위 9개 산업·44개 직종에서 평균 14년의 실무 경험자가 평소 수행하는 업무를 추출하여 총 1,320개의 태스크(그중 220개 공개)를 준비한다. 모델에는 문서·슬라이드·도표·스프레드시트와 같은 현실적인 납품물을 만들게 하고, 전문가가 블라인드 테스트를 통해 인간의 결과물과 나란히 두고 '더 나음/동등함/열등함'을 판정한다. 퀴즈의 정답률이 아니라, 납품물로서의 완성도를 사람이 보는 것이다. OpenAI의 보고에 따르면, 프론티어 모델(Frontier model)은 숙련자보다 약 100배 빠르고 저렴하게 이를 수행했다고 한다.

Seed 2.1이 이러한 벤치마크를 나열한 것은 "우리 모델은 실무 결과물을 낼 수 있다"라고 주장하기 위한 무대 선택이라고 읽힌다. 역으로 말하면, SWE-Bench 스코어만 보고 모델을 선택하는 시대는 이미 측정하고 싶은 것의 일부만을 측정하고 있는 셈이다.

신구 평가 축을 대략 정리하면 다음과 같다.

평가 축	대표적인 벤치마크	측정 대상
한 문제의 정확도	MMLU, GSM8K	지식·추론의 정답률
...

Seed 2.1의 공개 수치로 구체적으로 확인할 수 있었던 것은, 프론트엔드 생성을 겨루는 Code Arena에서 프리뷰 버전이 1539점을 기록하며 8위에 올랐다는 점 하나뿐이다. felloai의 리뷰에 따르면, 이 순위는 Claude Opus 4.6과 나란히 하는 위치라고 한다. 반대로 말하면, 정작 중요한 GDPVal 등의 절대 스코어나 파라미터(Parameter) 수·컨텍스트 길이(Context length)·가격은 공식 블로그에서도 공개되지 않았다. 이 부분은 솔직하게 "아직 알 수 없다"라고 적어둔다.

사용자 입장에서 궁금한 "지금 바로 사용할 수 있는가"에 대해서는 소스마다 차이가 있었다. ByteDance 공식 블로그는 "Doubao와 Volcano Engine 사용자는 지금부터 Doubao Seed 2.1을 사용할 수 있다"라고 적고 있다. 반면, 공개 전날인 6월 22일 자 felloai는 당시 아직 Arena 커뮤니티를 통한 조기 프리뷰 단계였으며, 광범위한 제공은 Feishu Spark나 Coze를 통해 몇 주에 걸쳐 시작되고 본격적인 API 개방은 그 이후라고 보도했다. 단 하루 만에 '프리뷰'에서 'Doubao/Volcano Engine에서 이용 가능'으로 표현이 바뀌었다. 중국계 플랫폼을 전제로 한 단계적 배포(Roll-out)이므로, 영어권이나 일본에서 즉시 호출할 수 있는 API가 있는 상태라고 단정하기는 어렵다는 것이 실정일 것이다. 가중치(Weights) 공개 예정도 명시되지 않았다.

Seed 2.1 단독으로 GPT-5.5나 Opus를 넘어섰는지 여부는 아직 독립적으로 검증할 수 있는 재료가 갖춰지지 않았다. 선동할 단계가 아니다. 오히려 가져가야 할 것은 평가 리터러시 (Evaluation Literacy)이다. 에이전트 (Agent)를 업무에 도입하려면, "벤치마크에서 몇 점인가"보다 "자신의 태스크 (Task)를 끝까지 완수할 수 있는가"를 자체적으로 측정하는 발상이 필요하다. 사내의 전형적인 티켓 (Ticket) 10개를 선정하여, 사람이 만든 결과물과 나란히 두고 제삼자에게 블라인드 테스트 (Blind Test)로 우열을 가리게 한다. GDPVal이 하고 있는 것은 요컨대 그것을 대규모이자 직업을 가로질러 수행하는 것이다. 동일한 방법론은 어떤 모델을 채택할지에 대한 사내 판단에 그대로 유용할 수 있다.

새로운 모델 뉴스는 숫자의 업데이트로서 흘러들어오지만, Seed 2.1이 흥미로운 점은 숫자 그 자체보다 무엇을 숫자로 만들 것인가를 변화시켜 왔다는 점에 있다. 다음에 모델을 비교할 때, 리더보드 (Leaderboard)의 한 줄뿐만 아니라 "이 벤치마크는 업무의 완수를 측정하고 있는가"를 한 번쯤 질문해 본다면, 보이는 모습이 상당히 달라질 것이다.

AI 자동 생성 콘텐츠

원문 바로가기

ByteDance Seed 2.1이 보여주는 AI 평가 축의 '완수'로의 이동

요약

핵심 포인트

댓글