GPT 5.2: OpenAI의 반격

동영상: GPT 5.2: OpenAI의 반격
채널: AI Explained
길이: 17분 41초
출처: 자막 (자동 생성, 영어)

스크립트:
지난 24시간 동안, OpenAI는 새로운 모델과 수많은 기록적인 결과들을 발표했습니다. GPT 5.2가 크리스마스의 기적은 아닐 수도 있습니다. Frontier 성능을 얻기 위해 종종 더 많은 토큰 (tokens)을 생각하는 데 소비해야 하기 때문입니다. 하지만 토큰 문제는 잠시 제쳐두더라도, GPT 5.2는 여러 벤치마크 (benchmarks)에서 현재 존재하는 최고의 언어 모델 (language models) 중 하나에 속합니다. 저에게 이것은 우리 모두가 호화로운 크리스마스 선물을 받는 것과 약간 비슷하게 느껴집니다. 다만, 어떤 결과가 연구소들이 지적 또는 재정적 초과 인출의 마지막 남은 부분을 사용하여 구매한 것인지, 그리고 어떤 결과가 새해 초에 훨씬 더 반짝이는 무언가로 대체될 것인지는 알 수 없다는 점이 그렇습니다. 어느 쪽이든, 이것은 진정으로 좋은 모델입니다. 그러니 여러분이 직접 판단할 수 있도록, 헤드라인만 읽어서는 알 수 없는 GPT 5.2에 대한 9가지 세부 사항을 알려드리겠습니다. 또한, 꽤 괜찮다고 생각하는 양에 비유한 결론으로 마무리하겠습니다.

첫째, GPT 5.2 출시 페이지 최상단에 있는 대담한 주장부터 이야기해 보겠습니다. 그것은 GPT 5.2의 사고 (thinking)가 GPQA에서 새로운 SOTA (state-of-the-art, 최첨단) 점수를 기록했으며, 인간 전문가 수준에서 수행하거나 그 이상의 성능을 보이는 최초의 모델이라는 것입니다. 전문가 심사위원들에 따르면, 해당 벤치마크의 비교 항목 중 71%에서 업계 최고 전문가들을 능가하거나 대등한 성능을 보였으며, 실제 전문적인 용도로 사용하기에 현재까지 가장 좋은 모델이라고 합니다. OpenAI와 Sam Altman 모두 이 벤치마크에 대해 내세운 주장이 비교적 구체적이었다는 점을 말씀드리고 싶습니다. 그들은 이를 44개 직업에 걸쳐 잘 정의된 지식 작업 과제들을 측정하는 평가 (eval)라고 불렀습니다. 그럼에도 불구하고, 실제 전문적인 작업에서 모델이 전문가 수준을 초과하는 것을 보는 것은 많은 이들이 이 차트와 벤치마크를 오해하게 만들 수 있습니다. 저는 GPT 5.2를 집중적으로 테스트해 보았고 이전 영상에서 이 벤치마크를 구체적으로 매우 자세하게 다루었지만, 10초간 요약해 드리겠습니다.

네, GDP Val을 위한 질문들은 업계 전문가들에 의해 정교하게 제작되었지만, 직업군은 반드시 주로 디지털 직업(digital jobs)이어야 합니다. 그렇지 않은 직업들은 제외되었습니다. 각 직업 내의 작업(tasks) 중 일부 하위 집합만이 선택되었으며, 그들이 제공한 매우 구체적인 형용사 표현은 의도적인 것이었습니다. 왜냐하면 각 작업의 전체 맥락(context)이 모델들에게 사전에 제공되기 때문입니다. 심지어 OpenAI는 릴리스 노트(release notes)에서 실제 작업들은 종종 암묵적 지식(tacit knowledge)을 포함한다고 언급하는데, 이는 기본적으로 작업을 해결하기 위해 맥락적 정보를 찾아내거나 직관적으로 파악하거나 알고 있어야 함을 의미합니다. 마지막으로, 이 벤치마크(benchmark)는 모델이 저지르는 치명적인 실수(catastrophic mistakes)의 영향력을 명확히 합니다. 예를 들어, 최근 모델이 사람의 하드 드라이브 전체를 삭제했다는 이야기를 들어보셨을 수도 있는데, 이러한 것은 이와 같은 벤치마크에서 계산하기 어렵습니다. 이제 공정하게 말하자면, 이것이 의미하는 바는 웹 조사(web research)를 수행한 후 스프레드시트(spreadsheet)를 만드는 것과 같은 작업에서 모델들이 매우 뛰어나지고 있다는 것입니다. 저는 GPT 5.2에게 축구 테마의 상호작용 매트릭스(interaction matrix)를 만들어 달라고 요청했습니다. 기본적으로 현재 특정 축구 시즌에 한 클럽이 리그 내 다른 클럽들을 상대로 치른 모든 경기 결과를 제공하는 것입니다. 저는 결과에 진심으로 감명받았습니다. 여기 보시는 것처럼 단순히 경기 목록을 찾아내는 것뿐만 아니라 상호작용 매트릭스까지 만들어냈기 때문입니다. 네, 저도 많은 결과값을 직접 확인해 보았고 정확했습니다. 또한 다른 모델들을 포함하여 여러 차례 심층 조사(deep researches)를 수행했는데, 그 모델들 모두 결과가 정확하다고 답했습니다. 하지만 한 가지 약간 실망스러운 점이 있었습니다. 이 논문이 10월에 나왔을 때, 저는 OpenAI를 찬양했습니다. 왜냐하면 그들이 당시 최고의 모델이었던 GPT 5 High를 Claude Opus 4.1과 비교했는데, 실제로 Claude Opus 4.1이 GPT 5보다 성능이 더 좋았기 때문입니다. 그것은 진정한 지적 정직성(intellectual honesty)이며, 저는 그 점에 대해 그들을 높게 평가했습니다. 하지만 이번 GPT 5.2의 경우, 그들은 Claude Opus 4.5나 Gemini 3 Pro와 비교하지 않았습니다. 이로 인해 당연히 사람들이 스스로 얄팍한 비교(cheeky comparisons)를 하게 만들었습니다. 예를 들어, 시각적 이해(visual understanding)와 같은 분야에서 말이죠.

GPT 5.2의 출시 페이지를 보면 이 모델이 마더보드를 이해하고 그것을 상당히 정확하게 분할(segment)하는 것을 보여줍니다. 하지만 구글에 재직 중인 로건 킬패트릭(Logan Kilpatrick, 이전 OpenAI 소속)은 Gemini 3 Pro가 멀티모달 이해(multimodal understanding) 분야에서 여전히 최고 수준(state-of-the-art)이라고 장난스럽게 말했습니다. 그는 이번에는 Gemini 3 Pro가 수행한 훨씬 더 정교한 분할 결과를 보여주었습니다. 스프레드시트 예시로 돌아가자면, 저는 GPT 5.2에게 같은 과제를 주어야만 했습니다. 모든 사람이 chatbt의 $200 프로 티어에 있는 것은 아니었고, 그것은 결과를 얻을 수는 있었지만 상호작용 매트릭스(interaction matrix)를 생성할 수는 없었습니다. 토큰 예산이 더 작았고, 생각할 시간이 적게 주어졌기 때문입니다. 따라서 이것은 어쩌면 불가피했을 것입니다. 이는 우리가 모두 이해하기 시작해야 할 다음 근본적인 지점으로 저를 이끌었습니다. 요즘 AI 벤치마크에서의 성능은 점점 더, 그리고 전적으로 생각하는 시간이나 사용된 토큰 수에 의해서만 결정되는 것이 아닙니다. 좀 더 전문적인 용어로 말하자면, 이는 테스트 시간 컴퓨팅(test time compute)의 함수입니다. 즉, 모델 제공업체가 벤치마크 질문에 답하기 위해 할당하는 컴퓨팅 예산입니다. OpenAI의 논 브라운(Non Brown)이 지적하듯이, 이것은 벤치마크 성능을 비교하는 것이 점점 더 어려워지는 이유 중 하나일 뿐입니다. 그는

따라서, 다소 터무니없는 이름이 붙은 GPT 5.2 Pro extra high reasoning effort(추후 단순 벤치마크를 위해 다시 다루겠습니다)를 사용하면 90% 이상의 성능으로 역대 최고의 성능을 보여줍니다. 하지만 온갖 종류의 컴퓨팅 및 알고리즘 효율성 덕분에 가성비(price performance ratio)는 계속해서 떨어지고 있다는 점을 반드시 언급해야 합니다. 작년 이맘때, 우리 대부분은 o3의 출시와 ARC-AGI1에서의 88% 성적에 깊은 인상을 받았습니다. 그런데 1년이 지난 지금, 우리는 390배의 효율성 향상을 목격하고 있습니다. 이는 우리를 Arc AGI 2로 이끕니다. 만약 Arc AGI에 대해 들어본 적이 없다면, 이것은 패턴 인식(pattern recognition) 연습입니다. 다시 말하지만, 이는 모델이 학습 데이터(training data) 이외의 영역을 테스트하도록 설계되었습니다. 만약 첫 번째 이미지가 다음 이미지로 변한다면, 이 이미지는 어떻게 변형될까요? 결과는 매우 유사합니다. GPT 5.2의 새로운 기록이며, 다시 한번 더 많은 비용과 토큰(tokens)을 소비할수록 거의 균일하게 성능이 증가합니다. 그러니 Gemini 3 Pro 대 GPT 5.2의 성능을 주의 깊게 살펴보십시오. 어떤 모델이 더 나을까요? 하나는 사고(thinking)하는 데 더 많은 토큰과 달러를 소비하여 더 나은 결과인 GPT 5.2를 얻었습니다. 그렇다고 해서 이것이 Gemini 3보다 더 낫다는 뜻일까요? 외부 기업인 Poetic이 Gemini 3 Pro를 중심으로 일종의 스캐폴드(scaffold)를 구축하여, 비록 토큰 소비는 늘어났지만 유사한 결과를 얻었다는 사실을 여러분은 모를 수도 있습니다. 만약 사고 예산(thinking budgets)이 비교를 복잡하게 만든다면, 모델 제공업체에 의한 벤치마크 선택은 어떨까요? OpenAI는 어제 나타나서, 정말 중요한 것은 SweepBench Pro라고 말합니다. 그것이 엄격하다는 것이죠. Python만을 테스트하는 Verified Open 소프트웨어 엔지니어링 벤치마크와 달리, SweepBench Pro는 4개의 언어를 테스트하며 오염 저항성(contamination resistant)을 높이는 것을 목표로 합니다. 차트에서 알 수 있듯이, 다시 한번 더 많은 출력 토큰(output tokens)이 더 높은 성능으로 이어집니다. 다시 말씀드리지만, 이것이 모델들이 사용하는 토큰의 효율성이 높아지고 있지 않다는 뜻은 아닙니다. 하지만 일반적으로 더 많은 토큰을 소비할수록 결과가 더 좋아진다는 것은 여전히 사실입니다.

그리고 동일한 벤치마크 (benchmarks)를 사용하여 정확한 일대일 비교를 수행할 때조차, 어떤 모델이 더 나은지 판단하는 것이 항상 쉽지만은 않습니다. 단순히 어떤 모델은 특정 벤치마크에 강하고, 다른 모델은 또 다른 벤치마크에 강하기 때문만은 아닙니다. 아니요, 정확히 동일한 것을 테스트한다고 주장하는 벤치마크들조차 차이가 있기 때문입니다. 표와 차트를 분석하는 것을 예로 들어보겠습니다. MMU Pro는 모델의 표, 차트, 그래프 분석 능력을 이끌어내도록 설계되었습니다. Gemini 3 Pro는 81%라는 최첨단 성능 (state-of-the-art performance)을 보여줍니다. GPT 5.2 thinking의 80.4%보다 더 높습니다. 하지만 그러다 제가 들어본 적 없는 완전히 새로운 벤치마크를 발견했습니다. 바로 Charive reasoning입니다. 이 벤치마크에서는 GPT 5.2가 88.7%를 기록하며 81%인 모델을 훨씬 앞섭니다. 이상한 점은 이것이 모델의 현실적인 차트 이해 능력을 테스트한다는 것입니다. Charive 논문에서 저는 그들이 '첫 번째 행과 두 번째 열의 서브플롯(subplot)에서 왼쪽에서 오른쪽으로 데이터의 일반적인 추세가 무엇인가?'라고 묻는 예시를 찾았습니다. 바로 이겁니다. 어떤 벤치마크를 믿어야 하는가 하는 것도 또 다른 문제입니다. 그렇다면 Humanity's Last Exam이나 GPQA와 같이 정말 잘 알려진 벤치마크들은 어떨까요? 두 가지 모두 특히 과학 분야에서 매우 모호한 지식과 추론을 테스트합니다. 도구(tools)를 사용한 Humanity's Last Exam의 경우, 두 모델 모두 약 45~46%를 기록하며 결과가 거의 비슷합니다. Google GPQA Diamond의 경우, GPT 5.2가 Gemini 3 Pro를 근소하게 앞서는 것으로 보입니다. 하지만 해당 벤치마크의 주요 저자 중 한 명인 David Ryan은 모델 제공업체들이 정답을 학습(training)하지 않았다고 믿어야 하기 때문에, 때로는 해당 벤치마크의 결과를 판단하기가 상당히 어려울 수 있다고 말했습니다. 그는 또한 과거에 질문의 5% 또는 10%는 단순히 노이즈 (noise)일 수 있다고, 즉 정답이 실제 벤치마크 답변에 반영되어 있지 않을 수 있다고 언급한 바 있습니다. 흠. 모델 제공업체들이 속임수를 쓰기 매우 어렵게 만드는, 완전히 비공개인 완전 외부 벤치마크는 어떨까요? 글쎄요, 저에게는 저만의 벤치마크가 있습니다. 그것은 Simple Bench라고 불립니다.

그리고 이것을 상식적인 질문이나 시공간적 추론 (spatio temporal reasoning)이 포함된 함정 질문이라고 생각하시면 됩니다. 저는 당시 모델들의 알려진 약점들을 직접적으로 공략하기 위해 거의 18개월 전에 이 벤치마크를 설계했습니다. 여러분은 제가 예산을 아낌없이 써가며 GPT 5.2 Pro를 5번 실행해 본 결과 57.4%를 얻었다는 사실을 알면 기뻐하실 겁니다. 인간의 기준점 (baseline)은 대략 48% 정도이며, Gemini 3 Pro가 76.4%로 GPT 5.2보다 훨씬 더 나은 성능을 보이는 것을 확인할 수 있습니다. 이제 이 모델 제공업체들이 이 벤치마크에서 속임수를 쓰는 것은 상당히 어려울 것입니다. 왜냐하면 저희는 모델에 대한 API 호출 시 정답을 정확히 제공하지 않기 때문입니다. 저희는 모델의 답변을 추출한 다음, 저희가 가진 정답 테이블과 비교합니다. 그 비교는 LLM (대규모 언어 모델)이 아니라 프로그램에 의해 수행됩니다. 참고로, 여러분 대부분이 사용하게 될 GPT 5.2의 기본 버전은 45.8%를 기록했습니다.

네, 참고로 궁금해하실까 봐 말씀드리자면, 이것은 추론 노력 (reasoning effort) 설정이 단순히 '높음'이 아니라 '매우 높음'으로 설정된 상태였습니다. 그리고 이것이 GPT 5.1보다 약간 낮은 성능을 보이는 것을 보고 꽤 놀라실 수도 있습니다. 하지만 SimpleBench에서 이런 일은 사실 처음이 아닙니다. GPT 5.1 자체가 56.7%를 기록했던 GPT 5의 성능을 약간 밑돌았기 때문입니다. 다른 모델 제공업체들의 경우, 발전 양상이 훨씬 더 균일합니다. Opus 4.1이 Opus 4를 능가하고, Opus 4.5가 Opus 4.1을 능가하며, Gemini 3가 Gemini 2.5를 능가하고, Gemini 2.5가 Gemini 2를 능가하는 식입니다. 만약 여러분이 매우 냉소적으로 생각한다면, 코딩이나 수학 및 대외적으로 크게 홍보되는 것으로 알려진 다른 벤치마크들의 성능을 극대화하는 대신, 핵심 파라미터 수 (parameter count)와 일반 지식 (general knowledge)을 희생시키는 '벤치마크 최적화 (benchmark maxing)'에 대해 의구심을 가질 수도 있습니다. 모델의 일반 지능 (general intelligence)을 낭비한다고 말할 수도 있겠죠. 그리고 참고로 이것은 알려진 트레이드오프 (trade-off)입니다. 최대 이익률을 위해서는 일반적으로 사람들의 기대치에 부합하면서도 파라미터 수 측면에서 가능한 한 가장 작은 모델을 원하게 됩니다. 그래야 수억 명의 사람들에게 서비스를 제공하기가 훨씬 더 쉽고 저렴하기 때문입니다.

순전히 저의 개인적인 의견을 말씀드리자면, 이러한 단순한 벤치마크 결과에도 불구하고 현재 저의 코딩용 주력 모델 (go-to model)은 Claude Opus 4.5입니다. 이제 여러분은 현명하게도 '결국 가장 좋은 모델은 내 사용 사례 (use case)에 가장 적합한 모델이다'라고 결론 내릴 수도 있을 것입니다. 이것이 바로 제가 LMUsil.ai의 무료 티어 (free tier)에 GPT 5.2를 추가한 이유입니다. 또한 OpenAI의 Pro 티어보다 거의 5배나 저렴한 Max 티어에서는 Pro 모델에도 접근할 수 있습니다. 이 예시에서 저는 앱의 셀프 채팅 (self chat) 기능을 사용하여 Gemini 3, GPT 5.2 Pro, Claude 4.5 Opus, Grok 4.1이 서로 토론하며 어떤 모델이 가장 똑똑한지 결정하도록 했습니다. 그리고 그들이 모두 서로가 가장 똑똑하다고 말했다는 사실을 알게 되면 실망하실 것입니다. 그들은 모두가 동등하다고 동의했는데, 항상 자신이 최고라고 생각하는 듯한 Grok 4.1만 제외하고 말이죠. 저는 심지어 그들 모두에게 웹사이트를 설계하도록 시켜보기도 했는데, 종합적으로 판단했을 때 가장 아름다운 웹사이트를 만든 것은 아마 GPT 5.2 Pro는 아니었다고 말씀드리고 싶습니다. 제 생각에는 그것은

GPT 5.2: OpenAI의 반격

요약

핵심 포인트

댓글