모델은 계속 강력해지고 있지만, '최강'에 대한 단 하나의 정답은 없다

6월은 또 다른 모델 출시들로 가득 찬 한 달이 될 것으로 보입니다. 5월 말에 Opus 4.8이 출시되었고, 며칠 전에는 MiniMax의 M3가 등장했으며, GPT 5.6이 곧 나올 것이라는 이야기가 돌고 있고, 일부는 이미 DeepSeek의 다음 출시를 기다리고 있습니다. 며칠마다 새로운 모델이 등장할 것 같습니다. 꽤 활기차네요.

하지만 지난 이틀 동안 제가 실제로 생각하고 있었던 것은 모델을 사용하는 한 친구의 경험입니다.

그는 웹 페이지를 작성하거나 작은 도구와 플러그인을 만드는 등 작은 것들을 만들기 위해 모델을 사용하기 시작했습니다. 처음에는 오늘날의 모델들이 얼마나 놀라운지 말하며 꽤 흥분해 있었습니다. 그는 대략 괜찮은 로컬 모델 (domestic model) 하나를 무작위로 골랐고, 그것만으로도 충분하다는 것을 알게 되었습니다. 모델이 이미 너무 잘 작동했기 때문에, 그는 모델이 어디서 더 강력해질 수 있을지 상상조차 할 수 없었습니다.

그러다 그의 작업이 더 복잡해졌습니다. 그는 작은 도구에서 자동 편집 도구, 비디오 크로핑 (video cropping) 등과 같은 것을 구축하려고 시도했습니다. 그때부터 문제가 시작되었습니다.

모델은 작업이 완료되었다고 말했습니다. 그는 알겠다고 했지만, 시도해 보니 결과가 없었습니다. 잠시 후 모델은 이번에는 정말로 완료되었다고 말했습니다. 그는 다시 시도했지만, 여전히 좋지 않았습니다. 여러 차례 이런 과정이 반복되었습니다.

그는 더 이상 판단할 수 없었습니다. 마음 한편으로는 자신이 모델과 작업하는 데 더 능숙해지고 있으며, 더 많은 가이드 (guidance)를 제공하고 다른 접근 방식을 시도해야 한다고 느꼈지만, 다른 한편으로는 모델 자체가 성능이 부족한 것은 아닌지, Claude Opus 같은 것으로 바꿔야 하는 것은 아닌지 의구심이 들기 시작했습니다.

이러한 패턴은 너무나 흔합니다. 그 이면에는 많은 사람들이 아직 알아차리지 못한 무언가가 있습니다: 모델의 강력함이 서로 다른 방향으로 갈라지고 있다는 것입니다. 단 하나의 점수로는 더 이상 전체 이야기를 설명할 수 없습니다.

점수는 천장에 몰려 있고, 실제 체감 성능은 갈라진다

먼저, 기묘한 상황부터 짚어보자면: 메인스트림 벤치마크 (mainstream benchmarks)에서 상위 모델들은 무시무시할 정도로 높은 점수를 기록하며 모두 좁은 범위 안에 몰려 있습니다.

GPQA를 예로 들어보겠습니다. 이 벤치마크는 대학원 수준으로, 투입된 박사급 전문가들조차 약 65%의 점수를 기록할 정도로 어렵습니다. 하지만 현재의 상위 모델들은 무리 지어 92%에서 94% 사이의 점수를 일상적으로 기록하고 있습니다. MMLU와 같은 오래된 벤치마크(benchmarks)는 이미 오래전에 거의 모든 모델이 90% 이상의 점수를 기록하며 추월했습니다. 어려운 문제들이 더 이상 어렵지 않게 된 것입니다. 점수는 천장에 도달했고, 모델 간의 차이를 구분할 수 없게 되었습니다.

그래서 벤치마크 제작자들은 계속해서 더 어려운 테스트를 만들어내야만 합니다. 새로운 '인류의 마지막 시험 (Humanity's Last Exam)'은 이를 명확히 밝히고 있습니다. 모델들이 MMLU에서 90%를 초과 달성함에 따라 기존의 질문들로는 더 이상 충분하지 않기 때문에 만들어졌다는 것입니다. 한 연구에서는 60개의 주류 벤치마크를 조사한 결과, 거의 절반이 이미 고도로 포화(saturated) 상태이며, 상위 모델들이 그 위에서 "통계적으로 구분이 불가능함"을 발견했습니다.

하지만 실제로 모델을 사용할 때 느껴지는 차이는 터무니없을 정도입니다. 저는 지난 포스트에서 Opus 4.8이 엔지니어링 및 연구 작업에서 계속 저를 실망시켰던 점—결국 나중에 모두 GPT 5.5로 옮기게 된 작업들—에 대해 썼습니다. 점수상으로는 두 모델이 비슷하지만, 실제 사용 시에는 천지 차이입니다.

ARC-AGI 스위트는 완벽한 예시입니다. 이전 버전에서 상위 모델들은 이미 96%로 포화 상태였습니다. 더 어려운 ARC-AGI-2로 전환하면, 동일한 모델들이 즉시 본색을 드러냅니다. GPT 5.5는 여전히 85%를 유지하는 반면, Opus 4.8은 간신히 70%를 조금 넘는 수준으로 떨어집니다. 다시 실제적인 상호작용과 탐색이 필요한 ARC-AGI-3로 전환하면, 거의 모든 모델이 0점에 수렴하며 평탄해집니다.

따라서 벤치마크는 여전히 유용합니다. 다만 "인간이 정의하고 채점할 수 있는 테스트를 만드는 것"이 모델을 구분해내는 능력이 점점 떨어지고 있을 뿐입니다. 그 이유를 이해하려면 학습(training) 과정을 살펴봐야 합니다.

가장 어려운 문제 해결하기 vs. 복잡한 작업을 안정적으로 수행하기

현재 모델을 더 강력하게 만드는 주요 기술은 "검증 가능한 보상 (verifiable rewards)"이라고 불립니다. 요약하자면, 기계가 자동으로 채점할 수 있는 표준 정답이 있는 어려운 문제들을 선정하여 강화학습 (reinforcement learning)에 사용하는 것입니다. 수학과 코드가 대표적인 예입니다. 정답을 맞히면 점수를 얻고, 틀리면 0점을 받는 과정을 반복하는 방식입니다.

DeepSeek-R1 논문은 이를 명확하게 설명합니다. 수학 문제는 규칙을 통해 검증되며, 코드는 테스트 케이스를 실행하기 위해 컴파일러(compiler)에 즉시 투입됩니다. 그들은 특히 신경망 기반의 보상 모델 (reward models)을 피했다고 명시했는데, 이는 모델들이 보상을 얻기 위해 편법을 쓰기(game) 너무 쉽기 때문입니다. OpenAI의 o 시리즈도 동일한 전략을 따릅니다. 이는 매우 효과적이며, 모델이 어려운 문제들을 해결하는 법을 배운 바로 그 방식입니다.

하지만 여기에는 한 가지 특징이 있습니다. 이 방식이 뛰어난 점은 "인간이 정의하고 채점할 수 있는 가장 어려운 문제"를 가져와서 이를 끈기 있게 풀어내는 것입니다. 이는 완전히 다른 능력입니다. 모호하고, 아주 어렵지는 않지만 매우 실질적인 과제를 주었을 때, 이를 한 번에 안정적으로 완수하는 능력 말입니다.

제 친구가 만든 편집 도구는 후자에 해당합니다. 과제 자체가 극도로 어렵지는 않지만, 의도가 모호합니다. 사용자가 직접 과제를 세분화해야 하며, 한 번에 깔끔하게 처리되어야 합니다. 올림피아드 문제를 풀 수 있는 모델이라도 이런 식의 지저분한 작업을 한 번에 깔끔하게 처리하지 못할 수 있습니다. 제자리걸음을 하거나, 세 번의 피드백 과정을 거친 뒤, 결국 제대로 끝내지도 못하고 "다 했습니다"라고 말할 수도 있습니다. 반대로, 지저분한 작업에 능숙한 모델은 정말 어려운 문제를 던져주면 완전히 막혀버릴 수도 있습니다.

이것들은 각자 자기만의 길을 가는 두 가지 방향의 능력입니다. 이들을 단 하나의 선상에 놓고 순위를 매길 수는 없습니다.

문제는, 90%의 사람들이 일상생활에서 후자를 필요로 한다는 점입니다. 사람들은 명확하게 규정되지 않은 과제를 번거로움 없이 안정적으로 완수하기를 원합니다. 하지만 우리가 모델의 순위를 매길 때 사용하는 점수는 거의 전적으로 전자를 측정합니다. 따라서 "가장 높은 점수"와 "나에게 가장 유용한 것"이 일치하지 않는 것은 지극히 정상입니다.

또 다른 차원: 탐색 (Exploration)

앞서 언급한 두 가지 유형은 여전히 정답이 존재하는 영역에 있습니다. 즉, 채점 가능한 어려운 문제를 풀거나, 검증 가능한 과제를 완수하는 것입니다. 진정으로 어려운 것은 세 번째 유형입니다.

제 친구가 막혔을 때, 저는 또 다른 종류의 문제들을 떠올렸습니다. 마치 앞에 신호등이 있는 교차로를 향해 운전하는 것과 같습니다. 직진할 것인가요, 아니면 중간을 가로질러 갈 것인가요? 표준적인 정답은 없습니다. 모호함 속에서 자신만의 방향을 찾아야 합니다. 사람들이 명확하게 정의하지 않았거나, 정답조차 모르는 영역을 탐색하는 것은 완전히 다른 능력입니다.

이 능력은 벤치마크 (Benchmarks)로 전혀 측정할 수 없습니다. 평가 (Evaluation)의 전제 조건은 정답, 즉 맞고 틀림을 채점할 수 있는 무언가가 있다는 것입니다. 하지만 탐색 (Exploration)에는 맞고 틀림이 전혀 없으며, 오직 효율성만이 존재합니다. 모호함 속에서 새로운 것을 건져 올려, 그것을 이용해 앞으로 나아가고, 이전에는 존재하지 않았던 경계를 확장할 수 있는가? 하는 점 말입니다.

이것은 또한 '검증 가능한 보상 (Verifiable rewards)' 접근 방식의 정확한 사각지대이기도 합니다. 연구에 따르면 고유한 정답이 없는 개방형 과제 (Open-ended tasks)는 애초에 명확한 표준 정답이 없기 때문에 보상을 구성하는 것조차 불가능하다고 지적해 왔습니다. 이 방식은 추진력을 얻을 수 없습니다. 어떤 이들은 이러한 훈련 방식이 모델에게 반드시 새로운 능력을 부여하는 것은 아니며, 오히려 탐색 범위를 좁혀 모델의 기본 성능 (Base model)에 의해 능력의 상한선이 제한될 수 있다는 사실까지 발견했습니다.

그 결과, 탐색에 뛰어난 모델이라 할지라도 명확한 표준 정답이 있는 우리 (Cage) 안에 던져지면 다소 어리석어 보일 수 있습니다. 테스트 점수가 믿을 수 없을 정도로 높게 나오는 모델이 탐색 능력을 전혀 갖추지 못했을 수도 있습니다. 제 경험상, GPT와 Claude는 이 차원에서 가장 뚜렷한 차이를 보여줍니다.

그리고 이 차원은 공교롭게도 가장 중요한 차원입니다. 왜냐하면 진정으로 가치 있는 것들은 종종 표준 정답 없이 시작되기 때문입니다. 하지만 그것은 측정하기 가장 어렵고, 훈련시키기 가장 어렵습니다.

채팅 시대는 이미 이 과정을 거쳤습니다

모델의 능력이 차원(Dimension)을 따라 갈라지고 층을 이루며 내려오는 것은 새로운 일이 아닙니다. 챗봇 (Chatbot) 시대가 이 모든 과정을 이미 거쳤습니다.

그 당시에도 모두가 가장 큰 모델이 가장 강력할 것이라고 한동안 생각했습니다. 하지만 그들은 특히 채팅 (Chatting)에 있어서는 가장 큰 모델이 딱히 더 낫지 않다는 사실을 빠르게 발견했습니다. 2023년, LMSYS Chatbot Arena 리더보드는 "작은 모델들도 경쟁력이 있다 (Smaller Models Are Competitive)"라는 섹션을 할애했습니다. 13B Vicuna가 상위 5위 안에 올랐으며, 그 Elo 점수는 Google의 PaLM 2를 능가하기도 했습니다. 7B 모델들 또한 상위 10위 안에 진입하며, 자신보다 두 배나 큰 모델들과 대등하게 맞섰습니다.

이후의 연구들도 이를 뒷받침했습니다. 모델의 규모를 수천만 개에서 수천억 개로, 즉 GPT-4 급까지 확장하더라도 소프트한 작업 (Softer tasks)에서는 성능 향상이 빠르게 정점에 도달함을 보여주었습니다. 수백억 개의 파라미터 (Parameters)를 가진 모델들은 프런티어 모델 (Frontier models)과 큰 차이가 없었습니다.

다시 말해, 채팅이나 정서적 지원 (Emotional support)을 위해서는 규모에 따른 한계 효용 (Marginal returns to scale)이 낮습니다. 수백억 개 정도면 충분하며, 수천억 개로 규모를 키우는 것은 순전한 낭비입니다.

그렇게 시장은 스스로 정리되었습니다. 정서적 가치나 대화 상대가 필요하다면, 인간처럼 들리는 작은 모델만으로도 충분합니다. 오직 진지한 연구나 하드코어 엔지니어링 (Hardcore engineering)이 필요할 때만 최상위 모델들이 역할을 수행합니다. 모델들은 사용 사례 (Use case)에 따라 서로 다른 가성비 계층으로 분류되었습니다.

오늘날의 국면도 이와 같은 흐름이 더 높은 능력 수준에서 재현되고 있는 것뿐입니다.

결론: 무엇이 가장 강력한지 묻지 말고, 어떤 차원이 필요한지 물으세요

제 친구의 고민으로 돌아가 봅시다. "더 강력한 모델로 바꿔야 할까요?" 그는 잘못된 질문을 하고 있습니다.

어려운 문제를 해결하는 것, 복잡한 작업을 수행하는 것, 그리고 탐색 (Exploring)하는 것을 동시에 모두 아우르는 "더 강력한" 모델이란 존재하지 않습니다. 이 세 가지는 서로 다른 모델로 갈라지고 있습니다.

물론 차세대 모델들은 여전히 앞으로 나아가고 있습니다. 하지만 그들이 투쟁하며 얻어내는 진보는 점점 더 "인간이 정의하고 평가할 수 있는 가장 어려운 문제들"에 집중되고 있으며, 이는 바로 대부분의 사람들이 그 진보를 체감할 수 없는 지점이기도 합니다. 그래서 분열이 발생합니다. 리더보드(Leaderboards)는 세대마다 계속해서 더 강력해지고 있지만, 대부분의 사람들은 그저 "한동안 충분히 좋았는데, 어디가 더 강력해졌는지 모르겠다"라고 느낍니다. 어느 쪽도 틀리지 않았습니다. 왜냐하면 그들이 원하는 것은 근본적으로 서로 다른 차원의 능력(Capability)이기 때문입니다.

그러니 "어떤 모델이 가장 강력한가"라는 모호한 질문은 그만두십시오. 대신 먼저 명확하게 물으십시오. 당신은 어떤 차원의 작업을 수행하기 위해 모델이 필요한가요? 정답이 있는 어려운 문제를 해결하는 것인가요, 명확하게 지정되지 않은 복잡한 작업을 완수하는 것인가요, 아니면 아직 아무도 답을 모르는 무언가에 당신과 함께 참여하는 것인가요?

"가장 강력하다"는 것은 표준적인 정답이 없는 질문이 되어가고 있습니다.

참고 문헌

모델 출시 및 타임라인

벤치마크 포화 (Benchmark Saturation)

검증 가능한 보상 (Verifiable Rewards), 그리고 그 한계

채팅 시대의 소형 모델 (Small Models in the Chat Era)

채팅 시대의 소형 모델 (Small Models in the Chat Era)