NVIDIA가 불가능을 실현했지만 아무도 이야기하지 않고 있습니다.
요약
NVIDIA는 NVFP4라는 새로운 마이크로 스케일링 형식을 도입하여 4비트 정밀도로도 성능 저하 없이 대규모 언어 모델을 학습시키는 데 성공했습니다. 이를 통해 메모리 사용량을 50% 줄이고 연산 성능을 최대 3배까지 높이면서, 기존 8비트 모델과 대등한 수준의 지능을 구현했습니다.
핵심 포인트
- NVFP4의 마이크로 스케일링 기술을 통해 4비트 정밀도 학습 시 발생하는 모델 붕괴 및 환각 문제 해결
- 메모리 사용량 50% 감소 및 산술 성능 2~3배 향상 달성
- MMLU, GSM8K 등 주요 벤치마크에서 8비트 모델 대비 0.1% 이내의 미미한 성능 차이 증명
- 하드웨어 자원과 전력 소모를 획기적으로 줄여 AI 모델 학습의 경제성 혁신
NVIDIA가 불가능한 일을 해냈지만 아무도 이에 대해 이야기하지 않고 있습니다.
그들은 10조 개의 토큰(tokens)을 사용하여 120억(12 BILLION) 개의 파라미터(parameter)를 가진 LLM(대규모 언어 모델)을 4비트(4-bit) 정밀도로 학습시켰습니다.
수년 동안 AI 산업은 정체되어 있었습니다.
세계적인 수준의 AI를 학습시키려면 16비트(16-bit) 또는 8비트(8-bit) 정밀도를 사용해야만 했습니다. 4비트(4-bit)로 낮추는 것은 모델에게 사형 선고와 같았습니다. 모델이 불안정해지고, 자체적인 수학 계산을 "환각 (hallucinate)"하며, 결국 붕괴되었기 때문입니다.
하지만 NVIDIA는 "불가능"이 단지 수학적 문제일 뿐이라는 것을 증명했습니다.
그들은 NVFP4라고 불리는 새로운 형식을 사용했습니다.
표준적이고 경직된 구조 대신, NVFP4는 "마이크로 스케일링 (micro-scaling)"을 사용합니다. 이는 숫자들을 아주 작은 블록으로 그룹화하고 각 블록에 개별적인 스케일링 인자(scaling factors)를 적용합니다. 이는 AI에게 자체 데이터에 대한 고해상도 안경을 씌워주는 것과 같아서, 메모리(memory)를 75% 적게 사용하면서도 미세한 세부 사항을 볼 수 있게 해줍니다.
그 결과는 완전한 패러다임 전환입니다:
- 2배에서 3배 빠른 산술 성능 (arithmetic performance).
- 메모리(memory) 사용량 50% 감소.
- 지능의 손실이 거의 제로에 가까움.
연구진은 4비트(4-bit) 모델을 거대한 8비트(8-bit) 베이스라인(baseline)과 비교했습니다. 곡선은 동일했습니다. MMLU, GSM8K 및 코딩 벤치마크(benchmarks)에서 이 "작은" 4비트(4-bit) 버전은 더 비용이 많이 드는 모델의 0.1% 이내 성능을 보여주었습니다.
이것은 경제적 지진입니다.
프런티어 모델(frontier model)을 학습시키는 데는 수만 개의 GPU와 수개월의 시간이 필요했습니다. NVIDIA는 우리가 절반의 하드웨어와 아주 적은 양의 전력만으로도 동일한 결과를 얻을 수 있다는 것을 방금 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @HowToAI_ (AI 활용법)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기