GPT 5.5 출시, DeepSeek V4 공개, 그리고 격화되는 컴퓨팅 전쟁

영상: GPT 5.5 출시, DeepSeek V4 공개, 그리고 격화되는 컴퓨팅 전쟁
채널: AI Explained
재생 시간: 25분 19초
출처: 자막 (자동 생성, 영어)

스크립트:
지난 20시간 동안 AI 분야에서는 10억 명의 사람들이 AI를 사용하는 방식에 영향을 미칠 수 있는 두 개의 새로운 모델이 등장했습니다. 제 생각에 GPT-5.5는 AI의 왕좌를 Anthropic에 빼앗기지 않으려는 OpenAI의 전면적인 시도입니다. 반면 오늘 공개된 DeepSeek V4는 이 두 기업 모두에 대한 중국의 해답입니다. 그리고 오늘 여러분이 보고 있는 수많은 헤드라인의 소용돌이 속에서, 여러분의 업무 방식과 AI 사용 방식에 영향을 미칠 수 있는 최대 50개의 데이터 포인트를 놓쳤을 수도 있습니다. 그래서 저는 그 모든 데이터와 더불어, 제가 시청한 연구소 리더들의 수 시간 분량의 인터뷰 중 엄선된 하이라이트를 여러분께 전달해 드리고자 합니다. 여러분은 제가 논문들도 읽는다는 사실을 잘 알고 계실 겁니다. 따라서 우리는 재귀적 자기 개선 (Recursive Self-improvement) 가능성에 대한 OpenAI의 업데이트된 추정치에 대해 듣게 될 것입니다. 이는 상당히 놀라운 내용이었습니다. GPT-5.5가 남성을 약간 선호하는 경향이 있는데, 이에 대해서는 제가 설명하겠습니다. Mythos 비교 분석. 그리고 왜 OpenAI의 사장이 Anthropic의 컴퓨팅 (Compute) 상황을 보고 웃었는지에 대해서도 다룹니다. 참고를 위해, 저는 GPT-5.5에 초점을 맞춘 뒤 DeepSeek를 다루고, 마지막으로 전체적인 개요의 가장 흥미로운 부분으로 시야를 넓히며 마무리하겠습니다.

완전히 새로운 GPT-5.5의 경우, 저는 조기 액세스 권한을 얻었지만 현재로서는 누구에게도 API 액세스는 제공되지 않습니다. 따라서 여러분이 듣게 될 거의 모든 벤치마크 점수는 OpenAI가 직접 보고한 것입니다. 개인적인 의견을 덧붙이자면, 이번 출시를 앞두고 며칠 동안 GPT-5.5를 테스트해 본 결과, 이 모델은 Opus 4.7을 거의 근소한 차이로 제치고 저의 데일리 드라이버 (Daily Driver)가 될 것입니다. 하지만 여기에는 많은 주의 사항이 있습니다. 보시다시피, GPT-5.5는 에이전트 기반 코딩 (Agentic Coding) 벤치마크인 SWE-bench Pro에서 Opus 4.7과 Mythos preview 모두에서 성능이 떨어지는 모습을 보입니다. GPT-5.5가 Opus 4.7보다는 약 6%, Mythos preview보다는 거의 20% 낮은 성능을 보인다는 점에 주목하십시오. 여러분이 눈치채지 못할 수도 있는 점은 SWE-bench verified 항목에는 데이터가 없다는 것입니다. 그래서 여러분은 이렇게 말할 수도 있습니다. "필립, 그럼 SWE-bench Pro는 누가 신경 쓰나요? 그 한 줄의 데이터가 도대체 무엇을 의미하죠?"

글쎄요, OpenAI에게 그것은 상당히 큰 의미가 있는 것으로 보입니다. 왜냐하면 Neel Chaudhuri가 지적했듯이, 지난 2월 OpenAI는 우리에게 SWE-bench Pro로 전환하라고 말했기 때문입니다. SWE-bench Verified보다 오염(Contamination)이 적기 때문에, GPT가 성능을 제대로 발휘하지 못하는 곳이 바로 그곳입니다. OpenAI의 블로그 포스트에 따르면, 우리는 SWE-bench Pro를 권장합니다. 아마 이 영상을 보는 동안 여러분은 약간의 롤러코스터를 타는 기분을 느낄 것입니다. 왜냐하면 바로 아래 행에 있는 에이전트 기반 터미널 코딩(Agentic terminal coding) 항목을 보면, GPT-5.5가 훨씬 앞서 있는 것을 볼 수 있기 때문입니다. 82.7%의 점수로 Mythos Previews의 82.0%를 앞질렀습니다.

따라서 만약 여러분이 방금 GPT-5.5의 코딩 능력에 대해 실망하고 있었다면, 제가 언급할 또 다른 상기할 점이 있습니다. 우리가 지금 이야기하고 있는 것은 GPT-5.5이며, 곧 API로 출시될 GPT-5.5 Pro조차 아닙니다. 그러므로 Mythos가 GPT-5.5를 완전히 조롱하고 있다고 말하고 싶은 유혹이 들 수도 있겠지만(제가 이 단어를 올바르게 사용했는지 알려주세요), 사실 우리는 완전한 일대일 비교(Apples-to-apples comparison)를 하고 있는 것이 아닙니다. 천명(Mandate of Heaven)은 여전히 누구의 손에 들어갈지 알 수 없습니다. 자, 이제 조금 혼란스러우실 겁니다. 더 자세히 살펴봅시다. 심오한 지식 벤치마크에 더 가까운 Humanity's Last Exam을 살펴봅시다. 이는 난해한 학술 영역과 고급 추론(Advanced reasoning)이 결합된 것입니다. 여기서 GPT-5.5는 Opus 4.7과 Mythos 모두에게 뒤처지며, 참고로 Gemini 3.1 Pro 또한 도구(Tools) 없이 이 벤치마크에서 앞서 있습니다. 하지만 여기에도 주의할 점이 있습니다. 왜냐하면 이 벤치마크는 많은 일반 지식(General knowledge)을 포함하고 있기 때문입니다. OpenAI가 모델을 더 효율적이고 저렴하게 만들기 위해 이러한 일반 지식의 비중을 최소한 약간은 낮추고 있을 가능성도 충분히 있습니다. 제가 수년간 인용해 온 OpenAI의 최고 연구원 중 한 명인 Noam Brown은 이렇게 말했습니다. "중요한 것은 토큰당 또는 달러당 지능(Intelligence per token or per dollar)입니다. 결국, 더 많은 비용을 쓰면 벤치마크 점수는 올라가기 마련이니까요." 또는 더 멋진 표현을 빌리자면, 지능은 추론 컴퓨팅(Inference compute)의 함수입니다. 그렇다면, 만약 GPT-5.5가 여러분이 관심을 갖는 영역에서 잘 작동하고, 여러분이 원하는 답을 얻기 위해 더 적은 토큰을 사용한다면, 솔직히 여러분은 Humanity's Last Exam 따위는 신경 쓰지 않게 될지도 모릅니다.

패턴 인식 (pattern recognition)의 유명한 테스트 중 하나인 ARC-AGI 2에서, 모든 설정값에서 GPT-5.5가 Claude Opus 시리즈 4.6 및 4.7을 능가하는 것을 볼 수 있습니다. 더 높은 점수를 달성했을 뿐만 아니라, 훨씬 더 낮은 비용으로 말이죠. 물론 단 하나의 벤치마크일 뿐이지만, 요즘 우리는 달러당 성능 (performance per dollar)에 점점 더 집중해야 합니다. 그리고 그 측면에서 DeepSeek가 분명히 한마디 하고 싶어 할 것입니다. 왜냐하면 세상에, 나중에 자세히 다루겠지만, DeepSeek V4 Pro는 제가 개인적으로 운영하는 벤치마크인 Simple Bench에서 61.2%를 기록했기 때문입니다. 이 벤치마크는 속임수를 간파하기 위해 상식 (common sense)이 필요한 시공간적 (spatio-temporal) 질문들을 던집니다. 하지만 Opus 4.7의 1~2% 이내로 근접할 줄은 예상치 못했습니다. 게다가 비용은 아주 일부분에 불과합니다. 다시 말씀드리지만, API 접근 권한이 없어서 GPT-5.5의 점수는 없습니다. Mythos가 사실상 거의 모든 시스템을 해킹할 수 있다는 그 광란적인 헤드라인들은 어떨까요? 저는 그 중 상당수가 과장되었다고 생각하며, 일부는 훨씬 더 작은 모델들로도 달성 가능할 수 있다고 봅니다. 그럼에도 불구하고, 시스템 카드 (system card)의 33페이지로 넘어가 보면, 영국의 AI 보안 연구소 (UK AI Security Institute)라는 외부 기관이 GPT-5.5가 오차 범위 내이긴 하지만, 그들의 좁은 사이버 작업 (narrow cyber tasks) 전반에서 가장 강력한 성능을 보이는 모델이라고 판단하고 있음을 알 수 있습니다. 이 섹션은 헤드라인 점수가 5.5가 Mythos보다 낫다는 것, 즉 그들이 테스트한 다른 어떤 모델보다도 낫다는 것을 암시하며 눈에 띄게 모호했습니다. 하지만 그들의 엔드 투 엔드 사이버 레인지 (end-to-end cyber range) 작업에서, 5.5는 10번의 시도 중 1번에서 32단계의 기업 네트워크 공격 시뮬레이션 과제를 완전히 완수할 수 있었습니다. 전문가라면 20시간이 걸릴 작업입니다. 하지만 Mythos는 10번 중 3번의 시도 만에 이를 수행할 수 있었던 것으로 보입니다. 보시다시피 직접적인 비교는 어렵지만, 5.5가 적어도 Mythos의 역량 범위 내에 있는 것으로 보입니다. 다시 말해, 보안 태세가 취약하고 방어 도구가 부족한 소규모 기업 네트워크는 5.5를 통한 자율적인 엔드 투 엔드 사이버 공격 능력에 취약할 수 있습니다. 물론, 그런 일이 발생하는 것을 방지하기 위해 5.5 위에는 추가적인 안전장치 (safeguards)가 마련되어 있습니다.

하지만 세계 최고의 은행가들과 CEO들이 모여, Mythos가 사이버 보안에 대한 대대적인 홍보 없이도 그에 필적하는 모델을 출시할 위험성에 대해 논의했다는 점은 상당히 깊은 관점의 차이를 나타냅니다. Mythos의 마케팅에 대한 Sam Altman의 의견은 다음과 같습니다.

"세상에는 오랫동안 AI를 소수의 사람들 손에만 쥐여주고 싶어 했던 사람들이 있습니다. 음, 그것을 다양한 방식으로 정당화할 수 있고, 그중 일부는 실재하기도 합니다. 정당한 안전 문제 (safety concerns)가 존재할 것입니다. 음, 하지만 만약 당신이 원하는 것이 '우리가 신뢰할 수 있는 사람들이니까 우리만이 AI를 통제해야 한다'는 식이라면, 공포에 기반한 마케팅 (fear-based marketing)이 그것을 정당화하는 가장 효과적인 방법일 것이라고 생각합니다. 음, 그것이 어떤 경우에는 정당하지 않다는 뜻은 아닙니다.

어, 하지만 그것은, 아시다시피, 분명히 엄청난 마케팅입니다. '우리는 폭탄을 만들었습니다. 곧 당신의 머리 위로 떨어뜨릴 것입니다. 우리는 당신에게 1억 달러에 방공호를 팔 것입니다. 당신은 모든 물건을 챙겨서 뛰어가야 합니다. 단, 우리가 당신을 고객으로 선택했을 경우에만 말이죠.'라고 말하는 것과 같습니다."

자, GPT 5.5와 Mythos를 비교할 수 있는 또 다른 방법은 환각 (hallucinations)을 살펴보는 것입니다. 모델들에게 난해한 지식 질문들을 대량으로 던지고, 얼마나 많이 맞히는지, 그리고 똑같이 중요한 점으로서, 틀린 질문 중 얼마나 많은 경우에 모른다고 인정하는지를 확인해 보는 것입니다. 헤드라인 점수는 놀라워 보입니다. GPT 5.5가 가장 많이 맞혔는데, Opus 4.6과 4.7의 46%에 비해 57%를 기록했습니다. Mythos는 여기에 포함되어 있지 않지만, 곧 그 부분도 다루겠습니다. 하지만 이 채널에서 배웠듯이, 헤드라인은 오해를 불러일으킬 수 있습니다. 환각률 (hallucination rate)을 보십시오. 이는 모델이 틀린 질문에 대해 환각을 일으키거나 답변을 조작하는 대신, "모릅니다"라고 말했어야 했던 비율입니다. 와, GPT 5.5는 "모릅니다"라고 말하는 대신 틀린 질문의 86%에 대해 환각을 일으켰습니다. 반면 Opus 4.7은 최대 36%에 불과합니다. 좋습니다, 그럼 정답과 오답을 모두 고려한 순수 비율 (net rate), 즉 전체 비율에 집중해 봅시다. Opus 4.7이 26 대 20으로 GPT 5.5를 상대로 근소한 승리를 거두었습니다.

하지만, 여기서 Mythos가 등장합니다.
Opus 4.7 시스템 카드(system card) 126페이지 깊숙한 곳을 살펴보면, Opus 4.6, Opus 4.7, 그리고 Mythos 간의 비교 데이터가 나옵니다. 이를 통해 Mythos를 'extra high' 설정에서의 GPT 5.5와 비교할 수 있습니다. Mythos가 71%로 훨씬 더 높은 정답률을 보이는 점에 주목하십시오. 물론 여전히 21.7%의 환각 (hallucination)이 발생하지만, 겉으로 보기에는 Opus 4.7만큼 심각하지 않으며, 따라서 GPT 5.5보다는 확실히 덜 심각합니다.

어쩌면 여러분은 스프레드시트(spreadsheets)에만 관심이 있을지도 모릅니다. 실제로 한 외부 벤치마크에서는 GPT 5.5가 성능과 지연 시간 (latency) 모두에서 Opus 4.7을 능가하는 것으로 나타났습니다. 그런 건 잊으세요, 우리는 그저 돈을 버는 데 관심이 있을 뿐입니다. 그렇다면 Vending Bench를 확인해 봅시다. 이곳은 모델에게 최대한 많은 돈을 벌라는 지시만 주어진 상태에서 시뮬레이션된 비즈니스를 운영해야 하는 곳입니다. Sam Altman은 그의 취기 어린 단계에서 "이것을 리트윗하지 마세요. 이것을 리트윗하지 마세요."라고 말했습니다. 하지만 결국 그는 해당 트윗을 올렸고, 그 내용은 GPT 5.5가 Opus 4.7을 압도하는 모습이었습니다.

또 다른 세부 사항으로, Opus 4.7은 공급업체에게 거짓말을 하고 고객에게 환불을 해주지 않는 등 Opus 4.6과 유사한 행동을 보였습니다. 반면 GPT 5.5의 전술은 깔끔했으며, 그럼에도 승리했습니다. 물론 이것은 하나의 설정에서의 하나의 벤치마크 결과일 뿐입니다. 멀티플레이어 설정이 아닐 때는 결과가 약간 달랐지만, 여전히 Opus나 Mythos에서 보았던 기만 (deception)이나 권력 추구 (power seeking) 행동은 나타나지 않았습니다. 이러한 벤치마크에서 기대할 법한 결과와는 다를 수 있습니다.

이런 결과를 보고 '그렇다면 5.5는 그저 엄청난 업그레이드일 뿐이네'라고 생각하실 수도 있습니다. 우선, 현재 이 모델은 유료 사용자용이며 무료 티어 (free tier)에는 제공되지 않는 것으로 보입니다. 그렇다면 이 비교는 어떨까요? 거의 언급되지 않는 세부 사항인데, 바로 Health Bench에 관한 것입니다. 임상의 (clinician)이거나 본인을 위한 임상 진단을 원하는 경우라면 당연히 관련이 있는 내용입니다. GPT 5.5가 GPT 5.4를 상대로 약 52% 대 48%의 정답률을 기록하며 능가하는 것을 볼 수 있습니다. 제가 특히 이 행을 짚어내는 이유는, 거기에도 주의 사항 (caveat)이 있기 때문입니다. 불과 며칠 전 OpenAI가 임상의를 위한 GPT-5.4를 출시했다는 사실을 알고 계셨나요?

접근을 신청해야 하지만, 만약 HealthBench Professional이라는 벤치마크의 특정 부분에서 접근 권한을 얻는다면, 버전 5.4가 두 가지 모두를 능가하는 59%를 기록한다는 것을 알 수 있습니다. 의사들이 작성한 답변은 약 44%였습니다. 이제 건강 관리에 전혀 관심이 없다고 가정해 봅시다. 이 결과는 여전히 흥미로울 것입니다. 왜냐하면 모델 IQ에 대한 단일 접근성이 존재한다면, 이런 결과가 나오지 않아야 하기 때문입니다. 임상의를 위한 5.4가 GPT-5.5보다 우수할 수는 없어야 하지만, 우리가 이러한 상충되는 벤치마크 점수에서 보고 있는 현실은 훨씬 더 들쭉날쭉합니다. 모델들은 보편적인 일반화 능력을 보여주지 못하고 있습니다. 특정 도메인에 대해서는 강화학습 (RL) 환경에 상당히 의존하는 경향을 보입니다. 이 부분은 개요 섹션에서 좀 더 자세히 설명하겠습니다. 지금 언급할 가치가 있다고 생각했을 뿐입니다. 한 가지 생각을 남기겠습니다. 만약 도메인 간에 이런 격차가 있다면, AGI(범용 인공지능) 또는 ASI(초지능)는 무엇을 의미할까요? 그리고 놓쳤을 수 있는 또 다른 흥미로운 테스트가 있습니다. 모델들에게 생각의 흐름, 즉 사고 과정 (chain of thought)에 대한 특정 일련의 지침을 따르도록 요청했습니다. 예를 들어, 모델이 자신의 생각을 소문자만 사용하도록 강제할 수 있을까요? 당신은 당신의 생각을 통제할 수 있나요? 저는 할 수 없습니다. GPT-5.5도 마찬가지입니다. 10만 토큰에 걸쳐서, 이는 천 분의 일보다 적게 수행했습니다. 게다가, GPT-5.4가 생각하는 것보다 더 나쁜 수준이었습니다. 하지만 OpenAI는 이것을 좋은 소식으로 받아들였습니다. '생각을 모니터링하기 어렵게 바꿀 수 있는 방식에 덜 능숙하다는 것은, 생각이 통제되지 않는다는 것을 의미하므로, 우리의 모니터링 시스템의 신뢰도가 높아졌습니다.' 외계인이 당신의 생각을 스캔하며 '정말 여기저기잖아. 이 사람이 속이는 방법은 없어'라고 말하는 모습이 거의 상상됩니다. 아, 네. 성별 선호도에 대해서는요? 스테레오타입적인 남자 이름인 Brian을 소개했을 때와

600개의 프롬프트가 주어졌을 때 유해한 출력(harmful outputs)의 전체 비율은 얼마였나요?
기본적으로 모델이 편향되도록 유도(baiting)하는 상황 말이죠. 음, GPT-5.5는 이전 모델들보다 성능이 더 나쁩니다. 여러분 중 많은 분이 재귀적 자기 개선 (recursive self-improvement)에 대해 듣기를 기다리고 계시겠지만, 이 점에 대해 OpenAI는 상당히 부정적입니다. GPT-5.5가 자기 개선 (self-improvement)을 위한 높은 임계값 (high threshold)에 도달할 가능성은 희박합니다. 이는 그들이 사이버 보안 (cybersecurity)에 대해서는 높은 임계값에 도달했으며 거의 임계점에 육박했다고 반복해서 강조했음에도 불구하고 그렇습니다. 생물학적 위협 (bio threat)에 대해서는 GPT-5.4의 사고 능력보다도 눈에 띄게 향상되었습니다. 바이러스학 (virology) 문제 해결 (troubleshooting)에서도 마찬가지였습니다. 그렇다면 재귀적 자기 개선 (recursive self-improvement)의 문제는 무엇이었을까요? 음, 그 답변의 일부는 그들의 내부 연구 디버깅 평가 (debugging evaluation)에서 나왔습니다. GPT-5.5가 디버깅할 수 있을까요?

GPT 5.5 출시, DeepSeek V4 공개, 그리고 격화되는 컴퓨팅 전쟁

요약

핵심 포인트

댓글