본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 06. 10. 13:55

DeepSeek의 새로운 AI는 게임 체인저입니다

요약

DeepSeek의 새로운 시각 기능 모델은 사물을 묘사하는 대신 인간처럼 특정 지점을 가리키며 사고하는 방식을 도입했습니다. 이를 통해 시각적 토큰 사용량을 90% 절감하면서도 프런티어 모델 수준의 정확도와 위상학적 추론 능력을 보여줍니다.

핵심 포인트

  • 시각적 원시 요소를 활용한 '가리키기' 방식의 사고 도입
  • 기존 모델 대비 시각적 토큰 사용량 약 90% 감소
  • 위상학적 추론 및 사고 과정의 시각적 역추적 가능
  • 저비용·고효율로 프런티어 모델과 대등한 성능 구현

비디오: DeepSeek의 새로운 AI는 게임 체인저입니다
채널: Two Minute Papers
길이: 7분 43초
출처: 자막 (자동 생성, 영문)

음, 왜 이런 DeepSeek의 독특한 특징이 존재하는 걸까요?
제 말은, 이것이 DeepSeek AI 시스템에 시각 기능 (vision capabilities)을 추가하지만, 그것은 새로운 것이 아닙니다. 다른 많은 AI 시스템들도 시각 기능을 가지고 있습니다. 그냥 여기에 이미지를 넣으면 작동하죠. 비디오조차도 가능하며, 심지어 오픈 모델 (open models)에 대해서도 마찬가지입니다. 그렇다면 왜 이 논문이 필요할까요? 음, 그들은 여기서 놀라운 일을 해냈고, 이것은 그야말로 게임 체인저 (game changer)입니다. 왜일까요? 보시다시피, 이전 기술에 이 사진 속 사람들의 수를 세어달라고 요청하면, 다음과 같이 생각할 것입니다. '좋아요, 왼쪽 상단에 사람들이 있고 두 줄로 줄무늬가 있는 사람들이 무더기로 있네요. 그건 대략 세 줄 정도입니다. 어떤 이들은 서 있고, 어떤 이들은 앉아 있습니다.'

아, 단지 말로만 그것들을 세는 것은 너무 혼란스럽습니다. 여기에는 두 가지 문제가 있습니다. 첫째, 오류가 발생하기 쉽습니다. 둘째, 사물을 묘사하는 데 너무 많은 생각을 해야 합니다. 왜 그럴까요? 우리 인간이라면 어떻게 할까요? 당연히 우리는 손가락을 사용하여 이미지의 한 지점을 가리킬 것입니다. 하나, 둘, 셋, 이런 식으로 말이죠.

끝났습니다. 시인처럼 이미지를 묘사하지 마세요. 인간처럼 가리키세요. 이제, 이것이 바로 이 새로운 기술이 하는 일입니다. 이것은 AI 시스템이 사고하는 동안 사물을 가리킬 수 있게 해주며, 이는 정말로 탁월합니다. 이를 통해 더 정확해질 뿐만 아니라 더 빨라지기도 합니다. 하드웨어와 토큰 (tokens) 비용이 엄청나게 드는 세상에서, 더 빠르고 저렴하게 결과를 제공하는 무언가를 갖는다는 것은 환상적인 일입니다.

하지만, 시각적 원시 요소 (visual primitives)를 가지고 사고하는 것은 훨씬 더 많은 장점이 있다는 것이 밝혀졌습니다. 그것은 위상학적 추론 (topological reasoning)도 수행할 수 있습니다. 예를 들어, 시작점과 끝점이 있는 미로를 주면, 질문에 대한 정답을 얻을 뿐만 아니라 전체 사고 과정을 시각적으로 역추적할 수도 있습니다.

저는 그 점이 정말 마음에 듭니다. 또한, 여기서 왕관이 어디에 연결되어 있는지 물어볼 수도 있는데, 보세요. 문어에게 말이죠. 네, 정답을 맞히지만, 그것이 어떻게 그런 결론에 도달했는지도 볼 수 있습니다. 자, 오해는 마세요. 이것들은 단순한 예시들일 뿐입니다.

잠시 후에 이것이 수십억 달러 가치의 프런티어 모델 (Frontier models) 만큼 뛰어난지 보여드리겠습니다. 또한, 무언가 잘못될 경우, 이는 실수를 더 쉽게 찾아내고 수정하여 훨씬 더 나은 모델을 만드는 것을 용이하게 해줄 것입니다. 이는 단순히 숫자의 나열(soup of numbers)만을 제공하는 것이 아니라, 우리가 실제로 이해할 수 있는 AI 시스템에 한 걸음 더 다가서게 합니다. 정말 좋습니다. 그렇다면, 얼마나 뛰어날까요? 자, 동료 학자 여러분, 종이를 꽉 잡으세요. 아, 제가 여기 종이를 떨어뜨렸네요. 보세요, 대부분의 프런티어 모델 (Frontier models)보다 시각적 토큰 (Visual tokens)이 약 90% 적게 필요합니다. 잠깐, 잠깐, 잠깐만요. 생각 없이 그냥 답으로 '3'이라고 말해버린다면, 당신이 얼마나 적게 생각하든 상관없습니다. 틀렸다면 생각하는 시간 (Thinking time)은 의미가 없으니까요. 그래서 정확도가 얼마나 될까요?

농담하시는 건가요? 이 무료 시스템이 거의 모든 것을 따라잡거나 능가하고 있습니다. 그리고 다시 한번 말씀드리지만, 우리는 지금 이 무료 시스템이 수십억 달러 규모의 시스템들과 맞붙고 있다는 이야기를 하고 있는 것입니다. 와우. 자, 우리는 여기 있는 동료 학자들이니, 이 시점에서 우리는 묻게 됩니다. 이 결과들이 진짜인가요? 아시다시피, 벤치마크 (Benchmarks)는 사방에서 조작되고 있습니다. 자, 여기서 많은 사람들이 놓친 부분이 있습니다. 7개의 벤치마크 (Benchmarks) 평균이지만, 자체 제작 벤치마크 (In-house benchmarks)는 제외되었습니다.

그것이 핵심입니다. 그들은 자신들의 벤치마크 (Benchmarks)를 조작하지 않았습니다. 왜 그런지 아시나요? 음, 누구나 좋아할 만한 방식이기 때문입니다. 왜냐하면 그것은 가장 오래된 속임수 중 하나거든요. 만약 성능이 좋지 않다면, 그냥 자신에게 맞는 새로운 벤치마크 (Benchmark)를 만들면 됩니다. 'YUNUS 벤치마크'를 만들어 봅시다. 그러면 당신은 항상 당신 자신으로서 세계 최초가 될 것입니다. 하지만 이번 사례는 그렇지 않습니다. 놀랍습니다. 이것은 무료이며 공개된 연구입니다. 따라서 이 기술은 무료 모델을 포함한 많은 기존 모델에 잠재적으로 추가될 수 있습니다. 제가 알기로 이 논문에는 부착된 모델이 없습니다. 대신 그것을 어떻게 수행하는지에 대한 개념을 상세히 설명하고 있습니다. 말하자면 청사진 (Blueprint)인 셈이죠. 우리 모두를 위한 더 많은 지능을 무료로 제공하는 것입니다. 세상에는 이런 논문이 더 많이 필요합니다. 정말 멋지네요. 하지만 이 모든 것이 마법처럼 들립니다. 그들은 어떻게 이것을 해냈을까요? 음, 보세요, 이것은 그들만의 정책 증류 (Policy distillation) 목적 함수입니다. 우리에게 정확히 이것이 필요합니다. 아시다시피, 보통 우리는 수많은 전문가 AI 모델들을 가지고 있습니다.

이제 상황을 다소 단순화해서 설명하자면, 이 전문가들 중 한 명은 상자(boxes)를 다루는 데 매우 뛰어나다고 가정해 봅시다. 이 친구보다 상자를 더 잘 다루는 사람은 없습니다. 다른 한 명은 점을 이용해 미로를 추적하는 데 탁월합니다. 하지만 우리가 원하는 것은 그것이 아닙니다. 우리가 원하는 것은 이 모든 것들을 수행할 수 있는 단 하나의 AI입니다. 바로 이 지점에서 이것이 등장합니다. 우리는 이 모든 스승(teachers)들로부터 배우는 학생 모델(student model)을 훈련시킵니다. 학생 모델이 자신이 무엇을 하려고 하는지 말하면, 스승들이 "좋아, 나는 이렇게 했을 거야"라고 말해주는 방식입니다. 이 과정을 충분히 반복하면 학생은 이 모든 다양한 종류의 시각적 사고(visual thinking)에 꽤 능숙해질 것입니다. 이것이 바로 그들이 수많은 전문가 스승들의 지식을 학생에게 증류(distilling)한다는 이름을 사용한 이유입니다.

그렇다면 이것이 우리를 어디로 데려다 놓았을까요? 자, 제 생각은 이렇습니다. 친애하는 동료 학자 여러분, 지금까지 Károly Zsolnai-Fehér 박사의 Two Minute Papers였습니다. 여러분도 아시다시피, 우리는 항상 더 높은 해상도(resolution)의 이미지를 학습시켜 AI 시스템을 더 똑똑하게 만들 수 있을 것이라고 생각했습니다. 더 많은 픽셀이 더 많은 지능을 의미한다고 말이죠. 하지만 그것이 사실이 아닌 것으로 밝혀졌습니다.

때로는 그것이 우리가 전혀 필요로 하는 것이 아닐 수도 있습니다. DeepSeek은 시각적 토큰(visual tokens)을 90%나 줄였음에도 불구하고 여전히 프런티어 모델(frontier models)들을 이겼습니다. 적은 것이 더 많은 것입니다(Less is more). 자, 그렇다면 이것이 완벽할까요? 모든 문제가 해결되었을까요? 아닙니다. 한계점들이 있습니다. 첫째, AI가 이러한 종류의 점 기반 사고(pointy thinking)를 자동으로 수행하지는 않습니다. 이러한 사고를 유도하기 위한 단어(cue)가 필요합니다. 둘째, 경계 상자(bounding boxes)는 사람에게는 유용하지만, 만약 여러분이 풀잎이나 머리카락 한 가닥을 세고 있다면, 이 경우에는 그것들을 매우 높은 해상도로 갖지 못하는 것이 문제가 됩니다.

[웃음]
네, 다시 한번, Two Minute Papers의 전매특허인 얇은 구조물(thin structures) 문제군요. 매번 그렇습니다, 정말 고통스럽네요. 셋째, 이러한 종류의 위상학적 추론(topological reasoning)은 우리가 원하는 만큼 일반화(generalize)되지 않습니다. 완전히 새로운 것을 보여주었을 때 그만큼 견고(robust)하지 않을 수 있습니다. 그러니 오해를 불러일으키는 미디어 헤드라인과 도처에 깔린 과장(hype)을 주의하십시오. 여기에는 여전히 개선해야 할 점이 많습니다. 하지만 저는 이것이 돌파구(breakthrough)가 될 수도 있다고 느낍니다. 그리고 이것은 아마 이번 달에 나온 세 번째 AI 연구 성과가 될 것입니다.

정말 놀라운 시대입니다. 또한,
대형 AI 기업들이 기업공개(IPO)를 앞두고 있어,
그들은 이익 극대화를 추구하는 벤처 기업이 될 것입니다.
매 분기 더 많은 돈이 필요해지겠죠. 따라서,
무료 오픈 웨이트 (open weights) 모델을 통해
자신만의 AI 시스템을 소유하는 것이 점점 더 중요해질 것입니다.
그리고 이번 모델은 그것들을 더 훌륭하게 만들어 줍니다.
정말 마음에 드네요. 여기 보시는 것처럼 저는
Lambda GPU Cloud를 통해 전체 DeepSeek AI 모델을 실행하고 있습니다.
6,710억 개의 파라미터 (parameters)가 매우 빠르고
매우 안정적으로 작동하고 있습니다. 이것은 정말 말도 안 되는 수준입니다.
저는 이것을 정말 좋아하며 정기적으로 사용합니다.
Lambda는 여러분이 자신만의 챗봇과 실험을 실행할 수 있도록
강력한 Nvidia GPU를 제공합니다. 진심으로, 지금 바로
lambda.ai/papers 에서 시도해 보거나
설명란의 링크를 클릭해 보세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0