r/ML분석2026. 05. 14. 06:01

DeepSeek V4 논문 풀 버전 공개, FP4 QAT 상세 정보 및 안정성 트릭 [D]

요약

DeepSeek가 V4 논문의 풀 버전을 공개하며, 기술적 깊이를 대폭 강화했습니다. 주요 개선 사항으로는 FP4 양자화 인식 훈련(QAT)을 통해 효율성을 높이고, 예측적 라우팅 및 SwiGLU 클램핑 같은 두 가지 안정성 메커니즘을 도입하여 모델의 훈련 안정성을 확보한 점이 있습니다. 또한, 생성형 보상 모델을 활용하여 RLHF 과정을 간소화하고, V4-Pro가 여러 벤치마크에서 높은 성능을 보여주며 경쟁력을 입증했습니다.

핵심 포인트

FP4 QAT를 통해 MoE 전문가 가중치와 CSA 인덱서의 QK 경로 활성화 함수에 적용하여 효율성을 극대화했습니다.
훈련 안정성 확보를 위해 '예측적 라우팅(Anticipatory routing)'과 'SwiGLU 클램핑'이라는 두 가지 독자적인 메커니즘을 도입했습니다.
RLHF 과정에서 별도의 보상 모델 대신 동일 모델을 사용하여 생성 및 평가를 통합함으로써 효율성을 높였습니다.
V4-Pro는 중국어 작문, 화이트칼라 작업 등 다양한 분야에서 높은 성능과 경쟁력을 입증했습니다.
FP4 QAT의 일반화는 멀티 에이전트 설정 등에서 훈련 및 추론 비용 구조에 큰 변화를 가져올 것으로 예상됩니다.

DeepSeek가 이번 주에 V4 논문 풀 버전을 공개했습니다. 4월에 공개된 프리뷰는 58페이지였으나, 이번 버전은 기술적 깊이가 크게 추가되었습니다.

제가 주목한 부분은 다음과 같습니다.

FP4 양자화 인식 훈련 (Quantization Aware Training, QAT). 이들은 훈련 후기 단계에서 FP4 QAT를 직접 실행하고 있습니다. MoE 전문가 가중치(Expert weights)를 FP4로 양자화했습니다 (주요 GPU 메모리 소비 항목). CSA 인덱서의 QK 경로는 FP4 활성화 함수 (Activations)를 사용합니다. QK 선택기 (Selector)에서 99.7%의 재현율 (Recall)을 유지하면서 2배의 속도 향상을 달성했습니다. 추론 (Inference)은 FP4 가중치에서 직접 실행됩니다.

효율성 표가 매우 인상적입니다:

모델	1M 컨텍스트 FLOPs	KV 캐시
V3.2	기준점 (baseline)	기준점 (baseline)
...

훈련 안정성 (Training stability), 두 가지 메커니즘.

조 단위 파라미터의 MoE는 손실 급증 (Loss spike) 문제, 발산 (Divergence), 예측 불가능한 실패 문제를 겪습니다. 이들은 두 가지 해결책을 문서화했습니다.

예측적 라우팅 (Anticipatory routing). 이들은 메인 모델과 라우터 업데이트를 의도적으로 비동기화 (Desync)합니다. 현재 단계에서는 특징 (Features) 추출을 위해 최신 파라미터를 사용하지만, 라우팅에는 캐시된 이전 파라미터를 사용합니다. 이는 이상 현상을 증폭시키는 피드백 루프를 끊어줍니다. 20%의 오버헤드가 발생하지만, 손실 급증 시에만 작동합니다.

SwiGLU 클램핑 (SwiGLU clamping). SwiGLU 선형 경로 (-10에서 10)와 게이트 경로 (최대 10)에 엄격한 제한을 둡니다. 이는 연쇄적으로 영향을 미칠 수 있는 극단적인 값들을 억제합니다.

생성형 보상 모델 (Generative reward model). RLHF를 위한 별도의 보상 모델을 사용하는 대신, 동일한 모델을 사용하여 생성과 평가를 모두 수행합니다. 점수가 매겨진 데이터로 훈련되어, 모델은 추론 (Reasoning)이 첨부된 자신의 출력을 스스로 판단하는 법을 배웁니다. 최소한의 인간 라벨링, 추론에 근거한 평가, 통합된 훈련이 가능합니다.

인간 평가 결과. 중국어 작문에서 V4-Pro는 Gemini 3.1 Pro 대비 62.7%의 승률을 기록했으며, 특히 작문 품질에서는 77.5%를 기록했습니다. 화이트칼라 작업 (13개 산업 분야에 걸친 30개의 고급 작업)에서 V4-Pro-Max는 Opus 4.6 Max 대비 63%의 비패배율 (Non loss rate)을 달성했습니다. 코딩 에이전트 평가에서는 사용자의 52%가 V4-Pro를 기본 코딩 모델로 사용할 준비가 되었다고 답했으며, 39%가 긍정적으로 답했고, '아니오'라고 답한 비율은 9% 미만이었습니다. 저의 사용 경험을 덧붙이자면, 지난주 제 Verdent 실행 환경에 V4-Pro를 교체해 보았는데 일상적인 업무에서 품질 저하를 느끼지 못했습니다.

저에게 가장 핵심적인 부분은 품질 저하를 최소화한 FP4 QAT (Quantization-Aware Training)입니다. 만약 이것이 일반화된다면 훈련(Training)과 추론(Inference)의 비용 구조가 크게 변화할 것이며, 특히 하나의 작업이 5~10개의 모델 호출을 생성할 수 있는 멀티 에이전트 (Multi-agent) 설정에서 그 효과가 두드러지게 나타날 것입니다.

논문 링크는 댓글에 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기