NVIDIA의 새로운 고효율 멀티모달 AI 모델 성능 분석
요약
NVIDIA의 새로운 300억 파라미터 규모 오픈 소스 멀티모달 AI 모델은 압도적인 처리량과 비용 효율성을 자랑합니다. 이 모델은 선형적 문맥 확장, 원시 오디오 파형 토큰화, 3D 컨볼루션을 통한 비디오 프레임 블록 처리 기술을 통해 실시간보다 최대 10배 빠른 성능을 구현했습니다.
핵심 포인트
- 문맥 길이에 따라 선형적으로 확장되는 멤버 레이어를 통해 대규모 데이터 처리에 최적화됨
- 별도의 음성 인식 모델 없이 원시 오디오 파형을 직접 토큰화하여 감정과 어조를 보존하고 비용을 절감함
- 3D 컨볼루션 기술을 사용하여 비디오 프레임을 블록 단위로 처리함으로써 연산 효율성을 극대화함
- 이미지-텍스트 매칭, 세부 사항, 객체 분할을 위한 세 개의 모델을 통합하여 정교한 시각 정보 처리를 수행함
- 로컬 실행 시 약 25GB의 VRAM이 필요하여 고성능 GPU 또는 클라우드 환경이 권장됨
영상: NVIDIA의 새로운 AI는 효율성의 괴물
채널: Two Minute Papers
재생 시간: 5분 42초
언어: 영어
음, 이미지, 비디오, 오디오가 모두 작동하는 새로운 오픈 소스 무료 AI 모델에 300억 개의 파라미터(parameters)가 들어있군요. 음, 왜일까요? 놀라운 Gemma 4와 같이 이 분야에는 이미 많은 무료 시스템들이 있습니다. 그렇다면 이 모델은 그것들보다 무엇을 더 잘할까요? 두 단어로 요약하자면, 처리량(throughput)과 비용 효율성(cost efficiency)입니다. 자, 이것이 실제로 무엇을 의미할까요? 학자 여러분, 논문을 꽉 잡으세요. 이 모델은 한 시간당 거의 10시간 분량의 비디오를 처리합니다. 와, 실시간보다 거의 10배나 빠릅니다. 정말 미친 듯이 빠르군요. Qwen 2 Omni보다 거의 3배나 빠릅니다. 그리고 문서를 처리할 때는 최대 7배까지 더 빠릅니다. 이를 로컬(locally)에서 실행하려면 이와 같은 장치나 고성능 데스크톱 GPU(desktop GPU)가 필요할 것입니다. 25GB의 비디오 메모리(video memory)를 이야기하고 있으니까요. 휴대폰에서 실행할 수 있는 수준이 아닙니다. 클라우드(cloud)에서 실행하기 위해 저는 Lambda를 사용합니다. 좋습니다, 그럼 그들은 어떻게 그것을 해냈을까요? 마법의 비결은 어디에 있을까요? 음, 이 모델은 다섯 가지는 정말 잘하지만, 한 가지는 그리 잘하지 못합니다. 친애하는 학자 여러분, Dr. Károly Zsolnai-Fehér와 함께하는 Two Minute Papers입니다. 첫째, 멤버 레이어(member layers)가 문맥 길이(context length)에 따라 이차 함수적(quadratically)이 아니라 선형적(linearly)으로 확장됩니다. 이것이 무엇을 의미할까요? 여러분이 가진 모든 것을 쏟아부어도 된다는 뜻입니다. 문서가 많을수록, 비디오나 오디오가 길수록 이 모델의 이점은 더 커집니다. 따라서 이러한 데이터들을 대규모로 처리하는 온라인 서비스를 운영 중이라면, 이 모델은 믿기 힘들 정도로 놀라울 것입니다. 둘째, 오디오가 입력되면 이 모델은 원시 오디오 파형(raw audio waves)을 토큰(tokens)으로 변환합니다. 하지만 다른 곳과는 방식이 다릅니다. 보통은 여기에 음성 인식(speech recognition) 모델을 사용합니다. 그런 모델들은 종종 거대하고 비용이 많이 들며, 입력값에서 모든 감정과 어조를 제거해 버립니다. 하지만 이 모델은 이 모든 데이터를 유지하면서도 작업을 잘 수행합니다. Whisper와 같은 별도의 모델을 추가로 실행하는 것보다 훨씬 저렴합니다. 셋째, 이미지나 비디오를 제공하면, 이전 세대의 많은 기술들은 이를 다른 종횡비(aspect ratio)로 찌그러뜨립니다.
이 모델은 이를 유지합니다. 그리고, 오, 이것 좀 보세요. 3D 컨볼루션 (Convolutions in 3D)입니다. 이제 제대로 된 이야기군요. 다른 많은 기술들은 비디오를 프레임 단위 (frame by frame)로 살펴봅니다. 이 비디오들을 처리하는 데 엄청난 양의 연산 (computation)이 필요하죠. 여기서는 3D 컨볼루션 (3D convolution)이 프레임 블록 (blocks of frames)을 살펴봅니다. 프레임 패키지를 동시에 확인하는 것입니다. 따라서 이를 크게 압축할 수 있습니다. 더 빠르고, 더 저렴합니다. 넷째, 이건 정말 흥미롭습니다. 다소 예상치 못한 부분인데요. 여기서는 거대한 독립형 CLIP 모델이 있을 것이라 예상하겠지만, 이 모델들은 본질적으로 어떤 텍스트가 이미지와 잘 맞을지를 예측합니다. 여기에서도 그것이 필요합니다. 하지만 여기에 비결이 있습니다. 하나의 독립형 CLIP 모델이 아닙니다. 아닙니다. 이 모델은 세 개의 모델을 해체합니다. 이미지와 텍스트를 매칭하는 것 하나, 세부 사항 (fine details)을 위한 것 하나, 그리고 객체 분할 (object segmentation)을 위한 것 하나입니다. 이제 이 세 가지 모두가 하나의 작은 인코더 신경망 (encoder neural network)으로 압축됩니다. 다시 한번 말하지만, 매우 효율적입니다. 다섯째, 효율적인 비디오 샘플링 (efficient video sampling)입니다. 이건 좋은 기능입니다. 이 시점에서, 예를 들어 300개의 이미지가 포함된 비디오를 신경망 (neural network)에 넣었다고 가정해 봅시다. 여전히 많은 데이터이지만, 알고 보니 모든 프레임이 완전히 고유한 것은 아닙니다. 예를 들어, 많은 프레임이 동일한 배경을 공유합니다. 그리고 이 모델은 마침내 이러한 중복 정보 (duplicate information)를 버립니다. 그리고 그것을... 맞습니다. 훨씬 더 저렴하고 효율적으로 만듭니다. 자, 학술적인 질문을 하나 하죠. 여기에 적용된 라이선스 (license)는 무엇인가요? 제가 보고 싶은 것은 매우 허용 범위가 넓은 Apache 2.0입니다. 그런데 여기서는 보이지 않네요. 자체 라이선스를 가지고 있습니다. 이는 보통 좋은 소식은 아닙니다. 하지만 이 경우에는 생각보다 낫습니다. 파생 저작물 (Derivative works)과 상업적 이용 (commercial use)은 괜찮습니다. 반면에, 약간의 저작자 표시 (attribution)가 필요하며, 특허 허용 (patent grants)에 있어서는 조금 더 엄격합니다. Apache 2.0이 10점 만점에 10점이라면, 제 의견으로는 이것은 10점 만점에 7점입니다. 그리고 저희는 여기서 한계점에 대해 말하는 것을 피하지 않습니다. 다른 것이 더 있나요? 아, 네. 만약 순수하게 텍스트 추론 (text reasoning)이나 순수 코딩 (coding)을 하고 있다면, 아마 다른 것을 찾아보는 것이 좋을 것입니다. 이 모델은 가장 똑똑한 오픈 모델 (open model) 1위는 아닙니다, 결코 아닙니다.
하지만 오디오나 비디오와 같은 멀티모달 입력 (multimodal input)을 매우 빠르고 매우 저렴하게 처리해야 한다면, 바로 이 모델이 정답입니다. 이제 우리는 직접 소유하고 스스로 실행할 수 있는 무료이며 공개된 AI 모델들을 갖게 되었으며, 이는 미래에 점점 더 중요해질 것입니다. 그리고 모델이 매우 많아짐에 따라, 모델들은 전문화되기 시작하고 있습니다. 각기 다른 방향으로 뛰어난 성능을 보이고 있습니다. 그렇다면 우리와 같은 학자들에게 더 나은 모델과 더 많은 가치가 무료로 제공된다는 뜻일까요? 당연히 환영입니다! 정말 감사합니다! 정말 멋진 시대에 살고 있군요! 여기 보시는 것처럼 저는 Lambda GPU Cloud를 통해 전체 DeepSeq AI 모델을 실행하고 있습니다. 6,710억 개의 파라미터 (parameters)가 매우 빠르고 매우 안정적으로 작동하고 있습니다. 이건 정말 말도 안 되는 수준입니다. 정말 마음에 듭니다. 저는 이것을 정기적으로 사용합니다. Lambda는 여러분이 자신만의 챗봇 (chatbot)과 실험을 실행할 수 있도록 강력한 Nvidia GPU를 제공합니다. 진심으로, 지금 바로 lambda.ai/papers에서 시도해 보세요. 또는 설명란의 링크를 클릭하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube Two Minute Papers (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기