
DeepSeek V4 AI, 수십억 달러 규모의 시스템을 무료로 압도하다
요약
DeepSeek V4 모델의 출시와 그 혁신적인 성능을 다룹니다. 100만 토큰의 컨텍스트 윈도우와 압도적인 연산 효율성을 갖춘 오픈 웨이트 모델로서, 기존 프런티어 모델들과 대등한 성능을 보여줍니다.
핵심 포인트
- 100만 토큰의 대규모 컨텍스트 윈도우 지원
- Pro 및 Flash 모델의 탁월한 연산 효율성
- KV 캐시 압축을 통한 토큰 수준 압축 기술
- Heavily Compressed Attention을 통한 정보 요약
영상: DeepSeek V4 AI, 수십억 달러 규모의 시스템을 무료로 압도하다
채널: Two Minute Papers
길이: 10분 3초
출처: 자막 (수동, 영문)
드디어 DeepSeek V4가 출시되었으며, 58페이지 분량의 연구 논문(research paper)으로 설명되어 있습니다. 드디어 아무것도 숨김없이 공개되었습니다. 솔직히 말씀드리면 오늘은 조금 수줍어서, 평소처럼 Two Minute Papers 스타일로 마이크만 사용하고 카메라는 켜지 않겠습니다.
이것은 우리가 사용할 수 있는 가장 거대하고 자유로운 오픈 웨이트 (open weights) AI 모델 중 하나입니다. 그런데... 잠시만요, 저게 보이시나요? 뭐라고요? 100만 토큰 (1 million token) 컨텍스트 윈도우 (context window)라고요? 오픈 웨이트 (open weights) AI에서 말인가요? 만약 1,500페이지 분량의 밀도 높은 문서를 읽어달라고 요청하면, 그것을 해낼 것입니다. 하지만 이것은 얼마 전까지만 해도 Google의 Gemini가 가졌던 주요 특징이었습니다. 2년 전 제가 이 기능에 열광했던 기억이 나는데, 이제 이것을 무료로 제공한다고요? 정말 말도 안 되는 소리처럼 들립니다!
그리고 Pro 모델을 살펴보면, 농담하시는 거겠죠. 그 결과물은 불과 몇 달 전의 수십억 달러 가치를 지닌 프런티어 (frontier) 모델들과 거의 비슷합니다. 이제 이것이 우리 필멸자들에게 선물로 주어졌습니다. 우리가 여기서 어떤 종류의 선물을 받고 있는지 강조하려 노력하고 있지만, 적절한 단어가 떠오르지 않습니다. 이곳이 천국인가요? 정말 살기 좋은 시대군요!
그리고... 잠깐만요. 훨씬 더 작은 Flash 모델이 있는데, 이것이 Pro 모델과 어느 정도 경쟁이 된다고요? 아니, 도대체 무슨 일이 일어나고 있는 건가요?
여기서 끝이 아닙니다. 이것은 시작일 뿐입니다! 모델이 더 많은 텍스트를 출력할수록, 새로운 Pro 모델은 이전 모델보다 약 3배 적은 연산 능력 (computing power)을 요구하며, 더 가벼운 Flash 모델은 약 10배 적은 연산 능력을 요구합니다.
제가 지금 무엇을 읽고 있는 건가요? 어떻게 이런 일이 가능할 수 있죠? 친애하는 동료 학자 여러분, Károly Zsolnai-Fehér 박사와 함께하는 Two Minute Papers입니다!
이 모델은 정말 마법 같은 세 가지 일을 수행합니다. 첫째: 압축 (Compression).
구체적으로는 KV 캐시 (KV cache)를 위한 압축입니다. 이는 여러분이 프롬프트 (prompt)를 작성하고 문서를 추가하는 연습장과 같습니다. 책을 읽는다고 상상해 보세요. 각 단락을 한 문장으로 압축할 수 있다면 훨씬 더 빠르게 답을 찾을 수 있을 것입니다. 책은 그대로 유지하되, 이제 더 빠르게 검색할 수 있게 되는 것이죠. 이를 토큰 수준 압축 (token-level compression)이라고 부릅니다.
하지만 이러한 작은 요약들도 쌓이면 문제가 됩니다. 우리는 어떻게 해야 할까요? 음, 두 가지 방법이 있습니다. 제임스 본드 책의 전체적인 줄거리를 알고 싶나요? 우리가 이미 읽은 책인지 확인하고 싶나요? 당연히 목차를 살펴보면 됩니다. 각 장에 짧은 이름이 붙어 있다면, 그 아주 작은 정보 조각만으로도 전체 이야기를 파악할 수 있습니다. 논문에서는 이를 128 대 1 압축이라고 설명합니다. 그들은 이를 고압축 어텐션 (Heavily Compressed Attention)이라고 부릅니다. 이제 AI는 전체 이야기를 한눈에 볼 수 있습니다.
하지만 DeepSeek의 과학자들은 이것만으로는 여전히 압축이 충분하지 않다고 말합니다. 더 필요합니다! 세 번째. 책 속에서 싸우는 장면을 검색하고 싶다고 상상해 보세요. 목차가 어느 정도 도움은 되겠지만, 싸움이 정확히 어디에서 일어나는지는 알려주지 못할 수도 있습니다. 그래서 우리는 색인을 찾아봅니다. 단어와 구절, 그리고 그 위치가 적힌 목록 말이죠. 자, 싸움 장면을 찾아보니, 딩동댕! 색인이 싸움 장면이 포함된 상위 5개 페이지를 알려줍니다. 이것은 천재적인 발상이며, 그들은 이를 압축 희소 어텐션 (Compressed Sparse Attention)이라고 부릅니다.
따라서 요약, 구조, 색인이라는 세 가지 압축 계층이 존재합니다. 그리고 갑자기 이 세 가지 요소가 딱 맞아떨어집니다. 이 세 가지는 KV 캐시 (KV-cache)의 메모리 요구 사항을 약 90% 정도 줄여줍니다. 제가 두 번이나 다시 확인해야 했습니다. 무려 90%나 줄어든다고요? 100단어를 10의 저장 공간으로 짓눌러 버린다고요? 그리고 기본적으로 모든 정보 조각을 잃어버리는 것은 아니라고 말씀하시는 건가요?
네. 그들이 정확히 그렇게 말하고 있습니다. 하지만 우리는 여기 있는 동료 학자들로서, 증명과 실험을 살펴봐야 합니다.
확실히 해두자면, 이것은 KV-캐시 (KV-cache) 압축입니다. 여전히 모델 전체를 로드해야 합니다. 따라서 이것이 전체 DeepSeek Pro AI를 토스터기에 로드할 수 있다는 뜻은 아닙니다. 미디어 헤드라인과 과장된 광고들이 있으니... 아시다시피, 이 점을 분명히 알고 계셨으면 합니다.
자, 동료 학자 여러분, 이제 여러분의 논문을 꽉 잡으십시오. 이 모델은 정말 대단하니까요.
그들은 점점 더 길어지는 컨텍스트 (context) 안에 8개의 사실을 숨겨서 테스트를 진행했습니다. 성능이 얼마나 좋을까요? 음, 그들의 보고에 따르면 Pro 버전은 Google의 플래그십 제품인 Gemini 3.1 Pro보다 더 잘 회상한다고 합니다. 와, 정말 믿기지 않는군요.
하지만 다른 많은 시스템과 마찬가지로, 컨텍스트 윈도우 (context window)의 한계에 도달하기 시작하면 성능이 저하되기 시작한다는 점에 유의하십시오. 그러면 모델은 잊어버립니다. 드리프트 (Drift)가 발생하고, 환각 (Hallucinate)을 일으킵니다. 텍스트가 많아질수록 진실은 줄어듭니다.
또한, 이번 새 버전이 많은 것을 강력하게 압축하고 있다는 점을 고려할 때, 이전 DeepSeek 모델과 비교한 정확도를 살펴봅시다. 하, 이것 좀 보세요. 정말 미쳤군요.
코딩 능력 또한 환상적입니다. 여러분이 개발자라면 아주 좋고, 개발자가 아니라면... 음, 이제 개발자가 되실 겁니다. 웹사이트에 붙여넣어 바로 실행할 수 있는 JavaScript 코드를 생성해 달라고 요청하는 것이 매우 쉽고, 어떤 경우에는 DeepSeek 창 안에서 클릭 한 번으로 프로그램을 실행할 수도 있습니다. 제 본업은 광학 수송 연구자, 즉 레이 트레이싱 (ray tracing) 연구자입니다. 그래서 이와 관련된 간단한 코딩 작업을 시도해 보았는데... 정말 환상적이었습니다. 여전히 더 고급 알고리즘을 제대로 구현하는 데는 실패했지만, 다음 버전이 무엇을 가져올지 기대됩니다.
이 모델은 벤치마크와 경쟁자들을 압도하고 있습니다. 가격은... 무료라는 아주 낮은 가격으로 말이죠. 직접 셀프 호스팅 (self-host)을 할 수 있다면 하드웨어 비용이 비싸겠지만, 온라인 접속도 제공하며 그 비용이 너무 저렴해서 숫자가 의미를 잃어버릴 정도라고 느껴집니다.
곧 지능은 측정하기에 너무 저렴해질 것입니다. 할인 적용 여부에 따라 Anthropic의 Claude보다 30배나 더 저렴한 가격을 쉽게 얻을 수 있습니다. 할인이 없더라도 8배에서 20배까지 더 저렴해질 수 있습니다. 정말 놀랍습니다.
이제 기대치를 조금 조절해 봅시다. 한계점(Limitations)입니다. 이것이 바로 미디어 헤드라인에서 빠져 있는 부분입니다.
첫째, 시스템이 1,500페이지를 처리하며 종이가 넘어가는 소리가 거의 들릴 정도입니다. 하지만 잠깐만요. 제가 10시간 분량의 오디오나 장편 영화를 처리할 수 있다고 말하지는 않았습니다. 거기에는 이유가 있습니다. 이 시스템은 단일 모달(Unimodal)입니다. 멀티모달(Multimodal)이 아닙니다. 이미지나 오디오는 없습니다. 말하자면 눈과 귀가 멀어 있는 상태입니다.
둘째, 이 시스템은 제작자들조차 완전히 이해하지 못하고 있습니다. 그들은 훈련(Training)을 마법처럼 안정화하는 두 가지 기술을 보고했지만, 왜 그런지는 정확히 모르겠다고 말합니다. 저는 이것이 모든 연구자에게 일어나는 일이라는 점을 언급하고 싶으며, 이러한 투명성에 대해 존경을 표합니다.
셋째, 컨텍스트 윈도우(Context window)의 한계까지 밀어붙이면 성능이 다소 저하된다는 점을 확인했습니다. 주의하십시오.
지금 일어나고 있는 일에 대해 과장된 광고에 속지 않기를 바랍니다. 여전히 한계가 존재하며, 그 한계는 작지 않습니다. 하지만 전반적으로... 이것은 개방형 및 무료 AI 시스템에 있어 결코 작은 진전이 아닙니다.
팀원들에게 축하를 전하며 정말 감사합니다.
이제 제 생각을 말씀드리겠습니다. 저는 이것이 훌륭한 출시이자 훌륭한 논문이며, 동시에 훌륭한 인생의 조언이라고 생각합니다. 왜일까요? 이러한 아이디어 중 아주 많은 것을 여러분의 사고 방식에 적용할 수 있기 때문입니다. 숲속을 걷고 있다고 상상해 보세요. 당신은 눈앞의 멋진 풍경을 보고 싶어 합니다. 하지만 그러다 발을 헛디딜 수도 있습니다. 혹은 넘어지지 않기 위해 주로 발 앞만 쳐다볼 수도 있습니다. 발걸음을 주의 깊게 살피거나... 아니면 풍경을 즐기거나. 둘 다 동시에 할 수는 없습니다. 그렇다면 해결책은 무엇일까요?
둘 다 하는 것입니다. 가까운 곳을 훑고, 먼 곳을 힐끗 보는 것입니다.
걸음마를 떼고(Step and look), 지역적인 세부 사항(Local detail)과 전역적인 문맥(Global context)을 동시에 보는 것입니다. 이는 DeepSeek가 하는 방식과 동일합니다. 다음에 산책할 때 한번 시도해 보세요, 묘한 경험이 될 것입니다. 직접 경험해 보시고 댓글을 통해 어땠는지 알려주세요.
그들은 또한 Engram이라고 불리는 기술을 사용합니다. 보통 AI는 매번 거의 모든 사실을 처음부터 다시 계산합니다. 하지만 Engram을 사용하면 그 사실들을 단순히 회상(Recall)할 수 있게 해줍니다. 말처럼 쉬운 일은 아닙니다. 이에 대한 별도의 영상이 있으며, 링크는 설명란에 있습니다. 그리고 우리는 아직 이제 막 표면을 긁고 있는 단계일 뿐입니다.
이것은 단순히 과장된 홍보가 아니라, 장단점을 모두 포함한 정말 진보된 연구 논문입니다. 또한, 이 영상은 매우 빠르게 만들어진 것이 아닙니다. 저는 이 내용을 몇 번이고 다시 썼습니다. 왜 그랬을까요? 복잡한 아이디어를 단순한 설명으로 추출(Distilling)하는 데는 시간이 걸리기 때문입니다. 가능한 한 빨리 게시하는 다른 이들보다 조회수는 적을 수 있습니다. 하지만 그것이 제가 여기서 하려는 노력이며, 여러분과 같이 믿을 수 없을 정도로 똑똑하고 수용적인 동료 학자(Fellow Scholars) 여러분을 위해 이 일을 할 수 있다는 것은 영광입니다. 이를 알아주셔서 정말 감사합니다. 이 영상이 마음에 드셨다면 종 모양 아이콘을 눌러주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기