
새로운 ChatGPT 5.4가 세상에 의미하는 것
요약
OpenAI의 새로운 모델 GPT 5.4 출시와 그 성능에 대한 분석을 다룹니다. GDP Val 벤치마크를 통해 화이트칼라 직업군에서의 성능을 검증했으나, 모델의 치명적 오류와 벤치마크의 한계점도 함께 지적합니다.
핵심 포인트
- GPT 5.4는 화이트칼라 업무 벤치마크(GDP Val)에서 인간의 첫 시도를 70.8% 확률로 상회함
- 모델이 인간이 하지 않을 치명적인 실수를 저지르는 경향이 있음
- 환각(Hallucination) 억제력은 우수하나, 틀렸을 때 답변을 지어낼 가능성이 존재함
- GPT-5.4 Pro 모델이 일반 모델보다 벤치마크 점수가 낮게 나오는 역설적 결과 발생
영상: 새로운 ChatGPT 5.4가 세상에 의미하는 것
채널: AI Explained
길이: 21분 51초
출처: 자막 (자동 생성, 영어)
내용:
GPT 5.3을 출시한 지 불과 48시간 만에, OpenAI는 GPT 5.4를 출시했습니다. 따라서 우리는 특이점 (Singularity)의 최전선에 와 있거나, 아니면 Sam Altman이 정말로 헤드라인의 초점이 다른 문제들로부터 벗어나기를 원하는 것입니다. 하지만 진심으로 말해서, 이것은 큰 업데이트이며 프론티어 AI (Frontier AI)의 발전을 무시하는 것은 전문가들에게 그 어느 때보다 비용이 많이 드는 일처럼 느껴집니다. 다만, 따라잡으려 노력하는 분들에게는 공감을 표합니다. 왜냐하면 현재 AI 지형은 아마도 역사상 가장 불투명한 상태이기 때문입니다. 우리는 X(구 트위터)에서 모델을 찬양할 사람들에게 주로 조기 액세스 권한이 부여되는 모호한 게시물들을 봅니다. 유출된 보고서와 그에 따른 비난 및 맞비난, 예측 시장 조작, 그리고 AI의 진정한 발전 속에서 기업들이 스스로 만들어내는 끝없는 새로운 벤치마크 (Benchmark)들을 보게 됩니다. 저는 크롬 탭이 76개에 달했을 때 거의 포기했습니다. 그래서 저는 지난 몇 시간, 그리고 지난 며칠간의 혼란스러운 발전 상황 중에서 사람들이 알아야 한다고 생각하는 9가지를 말씀드리려 합니다.
저에게 있어 GPT 5.4는 모든 화이트칼라 (White-collar) 전문가들을 위한 Codex 또는 Claude Code를 만들려는 OpenAI의 시도입니다. 이 모델은 GDP에 미치는 영향력을 기준으로 선정된 44개의 화이트칼라 직업군 전체에 걸친 인간의 결과물과 비교하여 전문가들에 의해 블라인드 테스트 (Blind graded)를 거쳤으며, 이에 따라 벤치마크 이름이 GDP Val이 되었습니다. GPT 5.4는 인간의 첫 번째 시도를 70.8%의 확률로 이깁니다. 무승부를 포함하면 83%의 확률입니다. 하지만 그 헤드라인은 모델이 인간이라면 하지 않을 실수를 저지르는 치명적인 실패(Catastrophic failures)와, 이 44개 직업군에서 수행되는 업무로부터 추출된 이러한 과업들이 독립적이고 디지털 방식이며, 해당 직업들의 전체 과업 범위와 목적을 대표하지 못한다는 사실을 제외하고 있습니다.
또한 우리가 서둘러 넘어가야 할 서사적 모순(narrative violation) 하나를 발견했을 수도 있는데, 그것은 바로 가장 높은 비용을 지불하는 사용자들에게만 제공되는 GPT-5.4 Pro가 실제로는 이 벤치마크(benchmark)에서 GPT-5.4보다 더 낮은 점수를 기록했다는 점입니다. 하지만 이러한 모든 주의 사항을 차치하고, 자율 주행(self-driving)에 비유해 본다면, 우리는 만족스러운 수준의 안전성에 도달했을지는 모르나, 마일당 혹은 스프레드시트(spreadsheet)당 GPT-5.4와 같은 자율 에이전트(autonomous agents)가 더 우수했던 그 지점은 이미 지나쳤을 수도 있습니다. Waymo가 보여주었듯이, 안전 성능이 10배 높다고 해서 국가적 또는 국제적인 도입이 보장되는 것은 아닙니다. 즉, 그는 초조하게 화이트칼라(white-collar) 업무는 올해 말까지는 여전히 유지될 것이라고 말합니다. 만약 GPT-5.4의 벤치마크 결과가 무섭게 들린다면, 상사가 당신을 해고하고 모든 일을 GPT-5.4와 같은 모델에 완전히 맡기기 전에 이 벤치마크에 대해 상사에게 미리 말해두는 것이 좋을지도 모릅니다. Artificial Analysis의 이 벤치마크에 따르면, 환각(hallucinations)을 조사하는 질문들에 대해 GPT-5.4는 좋은 성적을 거둡니다. GPT-5.3 Codex만큼은 아니지만, 전반적인 정확도(accuracy) 측면에서 측정했을 때 최첨단(state of the art) 수준에 근접해 있습니다. 하지만 GPT-5.4가 틀렸을 때는 다른 모델들보다 답변을 지어낼(BS) 가능성이 더 높습니다. 다시 말해, 이 차트에서는 수치가 더 낮아야 하는데, 현재 89%로 높게 나타나 있습니다. 이는 모델이 틀렸을 때 정답을 모른다고 인정하는 대신, 답변을 지어낸다는 것을 의미합니다. 참고로, 이는 Sam Altman이 작년 이맘때쯤이면 더 이상 환각(hallucinations)에 대해 논의할 필요가 없을 것이라고 말했던 것(제가 여기서 그가 그렇게 말했다고 보고했습니다)으로부터 거의 3년이 지난 시점입니다. 이 내용이 GPT-5.4에 대한 기대감을 잠시 떨어뜨렸을 수도 있으니, 거의 자율적인 소프트웨어 개발(software development) 분야에서 지속적으로 일어나고 있는, 실제로 매우 놀라운 진보를 시연하며 다시 기대감을 높여보겠습니다. 현재 Windows와 Mac 모두에서 사용할 수 있는 OpenAI의 Codex에서, 저는 기본적으로 'Stockport County FC의 시즌 중 진행 상황을 보여주는 애니메이션 리그 테이블(league table)을 만들 수 있니?'라고 요청했습니다.
그리고 우리는 이것을 얻게 되는데, 꽤 아름다워 보이며 실제로 시즌을 진행하면서 그에 따라 리그 순위가 변하는 것을 볼 수 있는 기능도 갖추고 있습니다.
이제, 제가 Stockport의 현재 순위를 확인해 보았는데 그 부분은 정확했습니다. 하지만 물론 이러한 각각의 결과들을 일일이 확인해야 할 것입니다. 그럼에도 불구하고 이것을 원샷 (one-shot)으로 해낼 수 있다는 사실, 그리고 그 과정에서 수행해야 했던 그 모든 웹 검색들을 생각해보면, 이는 OpenAI가 서로 다른 도구들의 이질적인 기능들을 모두 한곳으로 모으려 노력하고 있다는 것을 정말로 보여줍니다. 그들은 이것이 GPT-5.3 Codex의 업계 선도적인 코딩 (coding) 능력을 통합하는 동시에, 도구, 소프트웨어 환경, 전문 업무 전반에 걸쳐 모델이 작동하는 방식을 개선했다고 말합니다.
논의를 위해, 예를 들어 AI가 세계적인 수준의 소프트웨어에 필요한 코딩의 98%를 수행할 수 있다고 가정해 봅시다. 회의론자들은 "글쎄요, AI가 할 수 없는 2%나 1%의 영역은 항상 존재할 것입니다. 그것이 개발자들의 고용 지표가 건강하게 유지되는 이유입니다"라고 말할 수도 있습니다. 하지만 그 능력의 또 다른 결과는, 이제 개발자가 아닌 사람들도 최고 수준에 거의 근접한 성과를 낼 수 있다는 점입니다. 다시 말해, 타오르는 모래에 반사된 빛 속에서 직업 간의 경계가 흐릿해지고 있습니다.
수많은 벤치마크 (benchmarks) 전반에 걸쳐, 모델들은 컴퓨터 사용 (computer use) 능력 또한 점점 더 좋아지고 있습니다. 그리고 GPT-5.4는 그 방향으로의 진전이 특히 두드러집니다. 하지만 전문 용어를 걷어내고 말하자면, 모델이 전례 없는 정확도로 자신의 출력물을 테스트하기 위해 보고 클릭할 수 있게 됨에 따라 루프 (loop)가 거의 닫혔다는 것을 의미합니다.
저는 모델에게 특정 기간 동안 영국으로 침입한 바이킹의 타임라인을 만들어 달라고 요청했고, 모델은 매우 잘 해냈습니다. 하지만 캠페인을 실행해 보면 그래픽에서 무언가 빠진 것이 있습니다. 따라서 이를 확실히 원샷 (one-shot)이라고 부를 수는 없을 것입니다. 롱쉽 (longship)을 보세요. 멋지긴 하지만, 잠깐, 저게 런던인가요 아니면 이오나(Iona)가 잘못 배치된 건가요? Sheppey는 거기 없습니다.
이처럼 정확도가 놀라운 수준은 아니라는 것을 알 수 있습니다. 제가 다소 가혹하게 말하고 있다는 것은 알지만, 이것이 사실입니다.
하지만 그 루프(loop)는 거의 닫혀가고 있습니다. 모델은 이러한 실수 중 일부를 정확하게 식별할 수 있게 될 것입니다. 어쩌면 이미 가능할지도 모릅니다. 저는 현재 이를 개선하기 위해 백그라운드에서 실행 중입니다. 영상 끝부분에서 여러분께 새로운 버전을 보여드리겠습니다. 하지만 루프가 닫히고 단 한 번의 시도(one shot)로 결점 없는 소프트웨어를 얻게 된다면 그 다음은 어떻게 될까요? OpenAI가 지적했듯이, 이를 스프레드시트, 문서, 프레젠테이션에 적용하면 어떤 일이 벌어질까요? 여러분은 어떨지 모르겠지만, 왼쪽에 있는 GPT-5.4 버전은 GPT-5.2 버전보다 훨씬 보기 좋습니다. 정말 대단합니다. 하이프 트레인(hype train)은 이미 역을 완전히 떠났고, 특이점(singularity)은 프리미어 리그 시즌 종료보다 더 가까이 와 있습니다. 하지만 우리가 너무 성급하게 말했을지도 모릅니다. 우리는 AI 성능의 급격한 변동(spiky world)이 존재하는 세상에 있는 것 같기 때문입니다. 즉, 가장 정교하게 추출된 학습 데이터(distilled training data)로부터 파생된 특정 도메인에서의 기록적인 성능이 다른 도메인에서도 그러한 데이터가 존재함을 보장하지는 않습니다. 이 모든 것이 매우 불균형한 발전을 초래합니다. GPT-5.4의 35페이지 분량의 시스템 카드(system card)에서 몇 가지 예를 들어보겠습니다. 모델의 머신러닝 (ML) 작업 해결 능력을 테스트하는 OpenAI의 내부 머신러닝 벤치마크 (benchmark)를 살펴보면, 그 진전은 상당히 극적입니다. GPT-5.2 thinking 모델의 약 12%에서 GPT-5.4 thinking 모델의 23%로 두 배 가까이 증가했습니다. 다만 이 차트에는 GPT-5.3 Codex는 없습니다. 그럼 OpenAI의 proof Q&A로 넘어가 보겠습니다. 이는 제가 생각하기에 OpenAI의 환상적인 벤치마크입니다. 물론 내부용이긴 하지만 말이죠. 이것은 실제로 OpenAI에서 겪었던 20가지의 내부 연구 및 엔지니어링 병목 현상(bottlenecks)을 바탕으로 만들어진 벤치마크입니다. 각각의 병목 현상은 주요 프로젝트에 최소 하루 이상의 지연을 초래했습니다. 다시 말해, 이를 해결하는 것은 OpenAI에 수백만 달러의 비용 절감을 가져다주었을 것입니다. 참고로 이 병목 현상들을 해결하는 데에도 다시 최소 하루가 걸렸습니다. 작업 내용은 모델이 예상치 못한 성능 퇴보(performance regressions), 비정상적인 학습 지표(anomalous training metrics), 또는 미묘한 버그(subtle bugs)와 같은 복잡한 문제를 진단하고 설명할 것을 요구했습니다.
GPT-5.4 thinking은 GPT-5.3 Codex뿐만 아니라, GPT-5.2 Codex와 심지어 GPT-5.2 thinking보다도 성능이 낮습니다. 다시 말하지만, 이것이 현재 AI 분야의 핵심 논쟁입니다. Dario Amodei나 Sam Altman 같은 인물들이 거는 큰 기대는, 다양한 전문 데이터 세트(specialized data sets)로 모델을 학습시킴으로써 이러한 전문 분야에 특화됨으로써 모델이 전문 분야 전반에 걸쳐 일반화(generalize)될 것이라는 점입니다. 즉, 미래에는 이러한 도메인에서 탁월한 성능을 내기 위해 그렇게 많은 전문 학습 데이터(specialized training data)를 필요로 하지 않을 수도 있다는 것입니다. 반면, 진전을 보이기 위해 각 도메인마다 희소한 데이터(rarefied data)가 필요하다면, 현재 우리가 보고 있는 것과 같은 들쭉날쭉하고 뾰족한 성능(jagged spiky performance)을 보이게 될 것입니다. 물론 제가 단순화해서 설명하고 있지만, 어느 정도의 일반화는 실제로 관찰되기도 합니다. 하지만 이 설명은 현재 핵심 논쟁이 어디에 있는지를 잘 보여줍니다. 또 다른 약간의 거품이 빠지는 순간은 파괴적인 행동을 피하는 능력 측면에서 GPT-5.4와 GPT-5.3 Codex를 비교할 때 나타납니다. 우리 모두는 에이전트가 하드 드라이브를 삭제하거나, 다른 탭에서 작업 중이던 코드 또는 스프레드시트를 덮어쓰는 등의 이야기를 알고 있습니다. GPT-5.2 Codex보다는 개선되었지만, GPT-5.4는 여전히 GPT-5.3 Codex보다 이러한 행동을 약간 더 자주 수행합니다. 자, 이제 모델을 너무 깎아내리는 것 같으니, GPT-5.4에서 우리가 목격한 돌파구(breakthrough)로 다시 돌아가 봅시다. Epoch AI의 Frontier Math Tier 4 수준 문제들을 만든 수학자 중 한 명은, 자신이 약 20년 동안 큐레이션해 온 과제를 GPT-5.4가 해결하는 것을 목격했다고 설명했습니다. 그는 이를 Google DeepMind의 AlphaGo 시스템을 참조하여, 자신의 개인적인 '37번째 수(move 37)'를 목격한 것 같다고 묘사했습니다. 그는 적어도 지난 몇 주 동안 이러한 발전이 진행되는 것을 보아왔음에도 불구하고 기이한(eerie) 기분이 들었다고 설명했는데, 이는 즉 약간 물러나서 바라볼 때, 점진적인 발전(incremental progress)조차도 여전히 압도적으로 느껴질 수 있음을 의미합니다.
그의 말을 빌리자면,
"나의 특이점(singularity)이 방금 일어났다."라고 합니다. 그다음에는 제가 만든 함정 질문이자 상식 벤치마크(common sense benchmark)인 Simple Bench가 있는데, 여기서 GPT-5.4는 상당히 저조한 성능을 보였습니다. 저는 현재 OpenAI 측에 그들이 권장하는 파라미터(parameters)를 확인 중이지만, GPT-5.4 Pro는 OpenAI의 어떤 모델보다도 압도적으로 높은 점수를 기록했습니다. 사실 저는 이를 예상하지 못했습니다. 왜냐하면 과거에 OpenAI의 특정 Pro 모델들이 다른 제공업체의 훨씬 저렴한 모델들보다 성능이 떨어졌던 적이 있기 때문입니다. 만약 새로운 모델 출시가 오로지 벤치마크 점수 극대화(bench maxing)에만 치중된 것이라면, 저의 개인적인 벤치마크에서 이런 종류의 진보를 보지는 못했을 것입니다.
좋습니다, 그렇다면 전문가로서 당신의 위치는 어디인가요? 음, 다소 진부한 조언이라는 것은 알지만, 2026년 현재 최고의 AI 도구들을 사용하지 않는 것은 솔직히 꽤 위험한 움직임처럼 느껴집니다. Google Deepmind의 Gemini 3.1 Pro는 물론, 당연히 GPT-5.4와 Anthropic의 Claude 4.6 Opus, 그리고 참고로 중국 모델들을 포함하여 현재 시중에 나와 있는 수백 개의 다른 모델들을 모두 사용해 보는 것이 좋을 것입니다. lmcouncil.ai에는 'bench'라고 불리는 새로운 버튼을 추가했는데, 이를 통해 긴 텍스트, 이미지, 또는 PDF 등 무엇이든 제출할 수 있으며, 제출된 내용은 당신이 선택한 모델 군(council of models)을 위한 일련의 블라인드 채점 질문(blind graded questions)으로 변환됩니다. 그리고 'benches' 버튼은 달러당 성능(performance per dollar)을 포함한 성능 대시보드를 제공할 것입니다. 여기서 일관된 주제를 느끼실 수 있을 텐데, 저는 Stockport County의 위키피디아 페이지 전체를 붙여넣어 보았고, 어떤 모델이 이 다소 무명인 축구 클럽에 대해 가장 많이 알고 있는지 확인할 수 있었습니다.
이러한 다소 긍정적인 분위기에서, 만약 뉴스에 피로감을 느끼신다면 잠시 물러나 그 도구를 가지고 놀아보시는 것도 좋을 것입니다. 왜냐하면 이 영상의 마지막 부분은 제 이전 영상의 연장선상에 있으며, 그 내용은 다소 낙관적이지 않기 때문입니다. 아마 여러분도 Anthropic이 국방부(Defense Department)로부터 공급망 리스크(supply chain risk)라는 공식 통보를 받았다는 뉴스를 보셨을 것입니다. 혹은 미국 대통령의 표현을 빌리자면, "나는 Anthropic을 해고했다(I fired Anthropic)"라고 할 수 있겠네요. Anthropic은 제가 그들을 개처럼 내쫓았기 때문에 곤경에 처해 있습니다.
음, Anthropic이 해고되었을 때(OpenAI에 대해서는 잠시 후에 다루겠습니다), 우리는 그들의 CEO인 Dario Amodei가 Anthropic 직원들에게 이 1,600단어 분량의 메모를 보냈다는 사실을 알게 되었습니다. 이 메모의 맥락은 Sam Altman이 급습하여 원래 Anthropic을 위해 준비되었던 계약을 가로챘다는 것입니다. Altman의 주장은 그들이 계약에 몇 가지 주의 사항(caveats)을 추가했는데, Anthropic의 표현을 빌리자면 이것이 무산되었다는 것이었습니다. 그 이유는 전쟁부(Department of War)가 Claude 모델을 Anthropic이 말하기를 국내 감시(domestic surveillance) 및 완전 자율 전쟁(fully autonomous warfare)으로 변질될 수 있는 용도로 사용할 수 있는 권한을 유지하기를 원했기 때문입니다. 그것은 Anthropic에게 레드라인(red line)이었으며, Sam Altman은 본인의 말대로 그 사이를 교묘하게 파고들어(threaded the needle) 그러한 사항들에 대한 안전장치를 추가하면서도, 수억 달러 가치의 계약을 따낸 것으로 보입니다. 다시 Amodei의 이야기로 돌아가자면, 직원들에게 유출된 메모에서 그는 이렇게 말했습니다. "저는 OpenAI로부터 나오는 메시지와 그들의 허위적이고 거짓된(mendacious) 본성에 대해 매우 명확히 하고 싶습니다. 이것이 그들의 진짜 모습이 누구인지 보여주는 사례입니다. 저는 모든 사람이 그들의 실체를 똑똑히 보기를 바랍니다." 그는 이어서 Sam...
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube AI Explained (AI 뉴스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기