HuggingFace헤드라인2026. 05. 07. 13:49

Open R1: 업데이트 #4

요약

DeepSeek에서 R1 추론 모델 기반인 DeepSeek-V3의 업데이트 버전(Open R1)이 출시되었습니다. 이 모델은 GPT-4.5와 동등하거나 Claude Sonnet 3.7보다 강력한 성능을 보여주며, MMLU-Pro (+5.3), GPQA (+9.3), AIME (+19.8) 등 주요 벤치마크에서 큰 폭의 개선을 이루었습니다. 특히 프론트엔드 웹 개발, 중국어 작문/검색 능력, 함수 호출 정확도 등 특정 영역에 초점을 맞춰 성능이 향상되었으며, 사용자는 Hugging Face Inference Providers, TGI, SGLang, Unsloth 등을 통해 이 모델을 쉽게 실험하고 배포할 수 있습니다.

핵심 포인트

DeepSeek-V3의 업데이트 버전(Open R1) 출시: GPT-4.5급 성능 달성 및 주요 벤치마크에서 대폭 개선 (예: AIME +19.8).
개선된 영역: 프론트엔드 웹 개발, 중국어 작문/검색 능력, 함수 호출 정확도 등 특정 사용 사례에 최적화됨.
배포 용이성 확보: Hugging Face Inference Providers, TGI, SGLang을 통해 다양한 환경에서 쉽게 접근 및 실행 가능.
효율적인 구동 방법 제시: Unsloth와 llama.cpp의 Dynamic Quantization 기술을 활용하여 대형 모델의 VRAM 요구량을 줄이고 성능 저하를 최소화할 수 있음.

이번 주, DeepSeek 에서 새로운 모델이 Hub 에 조용히 등장했습니다. 이는 R1 추론 모델의 기반 모델인 DeepSeek-V3 의 업데이트 버전입니다. 아직 이 새 모델에 대한 정보는 많지 않지만 몇 가지 사실을 알고 있습니다!

모델은 원래 DeepSeek-V3 와 동일한 구조를 가지고 있으며 이제 MIT 라이선스를 갖추고 있습니다. 이전 V3 모델은 커스텀 모델 라이선스를 사용했습니다. 이번 모델 릴리스의 초점은 지시어 따르기 및 코드와 수학 능력 향상에 있었습니다. 자세히 살펴보겠습니다!

DeepSeek 팀은 다양한 수학 및 코딩 작업을 통해 모델을 평가했으며, 다른 프론티어 모델과 비교하여 모델의 강력한 능력을 확인할 수 있습니다:

명확히 말하면, 이 모델은 최상위 리그에 속합니다: 종종 GPT-4.5 와 동등하고 일반적으로 Claude-Sonnet-3.7 보다 강력합니다.

모델은 벤치마크 전반에서 유의미한 개선을 보였습니다.

MMLU-Pro: 75.9 → 81.2 (+5.3) (전체 이해도를 위한 좋은 벤치마크)
GPQA: 59.1 → 68.4 (+9.3)
AIME: 39.6 → 59.4 (+19.8) (MATH 능력의 대용량)
LiveCodeBench: 39.2 → 49.2 (+10.0) (코딩 능력 지표)

특히, 모델 카드에서 DeepSeek 는 다음과 같은 영역에서 표적 개선을 언급했습니다:

프론트엔드 웹 개발- 코드 실행성 향상

더 미학적으로 아름다운 웹 페이지 및 게임 프론트엔드

중국어 작문 능력- 스타일 및 콘텐츠 품질 향상

R1 작성 스타일과 일치
중장형 텍스트의 더 나은 품질
기능 개선
개선된 멀티 턴 상호작용 리스크팅
최적화된 번역 품질 및 서신 작성
스타일 및 콘텐츠 품질 향상
중국어 검색 능력- 더 상세한 출력으로 보고서 분석 요청 개선

함수 호출 개선- 이전 V3 버전의 문제 해결을 포함한 함수 호출 정확도 증가

따라서 질문이 떠오를 수 있습니다: 그들이 실제로 어떻게 했습니까? 조금 추측해 보겠습니다!

이름 및 구조를 고려할 때 새로운 모델이 이전 V3 모델을 기반으로 하고 그 위에 훈련되었다고 가정하는 것이 충분히 안전합니다. 모델을 개선한 두 가지 가능한 영역은:

연속적 전훈련:V3 모델부터 시작하여 a) 더 새롭고 최신 데이터, b) 더 잘 정리된 데이터 (따라서 더 높은 품질) 를 사용하여 전훈련 프로세스를 계속할 수 있습니다. 이는 최근 사건의 사실성을 향상시키고 일반적으로 능력을 향상시킵니다.
향상된 후훈련:특히 지시어 따르기 및 스타일 후훈련 시대에 후훈련이 가장 중요한 역할을 합니다. 아마도 그들은 후훈련 데이터 믹스를 개선했을 가능성이 높으며, 알고리즘을 개선했을 수도 있습니다.

팀이 기술 보고서를 발표하기까지 우리는 그들이 무엇을 조정했는지 확실히 알 수 없지만 후훈련 파이프라인은 확실히 추가될 가능성이 높으며, 전훈련에도 일부 추가될 수 있습니다. 따라서 모델을 사용하는 방법을 다음에 살펴보겠습니다!

Hugging Face 의 Inference Providers 를 사용하여 이 모델을 빠르게 실험할 수 있습니다. Fireworks, Hyperbolic, Novita 를 통해 사용할 수 있습니다.

다음은 huggingface_hub 라이브러리를 사용한 예입니다. OpenAI 클라이언트 라이브러리를 사용하는 방법도 다음 예시와 같습니다.

from huggingface_hub import InferenceClient
client = InferenceClient(
provider="fireworks-ai",
...

TGI 는 최신 릴리스로 DeepSeek V3-0324 를 실행할 수 있습니다. H100s 노드의 태그된 도커 이미지와 직접 사용할 수 있습니다.

docker run --gpus all --shm-size 1g -p 8080:80 -v $ volume:/data \
ghcr.io/huggingface/text-generation-inference:3.2.1 --model-id deepseek-ai/DeepSeek-V3-0324

SGLang

SGLang 은 Multi Latent Attention 과 Data Parallelism 최적화 기능을 포함하여 DeepSeek V3-0324 를 즉시 실행할 수 있습니다. 사용 방법은 H100 노드에서 다음 명령어를 실행하는 것만으로도 가능합니다. 자세한 내용은 여기 참고하세요.

docker pull lmsysorg/sglang:latest
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host --network=host --privileged lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3-0324 --tp 8 --trust-remote-code --port 30000

Unsloth 와 Llama.cpp 의 Dynamic Quants

DeepSeek V3-0324 같은 대형 LLM 을 실행하는 것은 계산 집약적이며, 상당한 GPU VRAM 이 필요합니다. 이때 Quantization(양자화) 가 등장하여 동일한 모델을 사용하되 VRAM 소모량을 크게 줄일 수 있게 합니다. 다만 downstream 성능에는 일부 손실이 발생합니다.

Unsloth AI 는 Dynamic quantizations 을 개발하여 DeepSeek V3 를 H100 단일 노드의 절반 계산량으로 실행할 수 있게 하며, llama.cpp 와 함께 벤치마크 성능 저하를 최소화합니다. 자세한 내용은 여기 확인하세요: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF

언어 모델의 안전한 실행은 첫 번째 GPT 모델이 출시된 이래 항상 핵심 관심사였습니다. DeepSeek 모델의 인기와 기원에 따라 이 문제는 새로운 관심을 불러일으켰습니다. 안전한 실행 방법과 주의가 필요한 영역을 살펴보겠습니다. 이는 DeepSeek 에 국한되지 않고 모든 오픈 소스 모델에 적용됩니다!

첫째, 모델을 다운로드하는 것이 안전한가요?

네, 모델 다운로드 자체는 안전합니다. Hub 측에서는 모델의 안전한 다운로드 및 실행을 보장하기 위한 몇 가지 주의사항이 마련되어 있습니다:

Safetensors: safetensors 형식은 DeepSeek 모델 가중치를 저장하여 숨겨진 코드 실행 위험을 방지합니다. 이는 이전 PyTorch pickle 형식에서 존재했던 리스크였습니다. 따라서 가중치 파일에는 악성 코드가 포함될 수 없습니다. Safetensors 블로그를 참조하세요.

모델링 코드: 모델을 실행하려면 모델링 코드도 가중치 파일과 함께 다운로드해야 합니다. 안전성을 높이기 위해 세 가지 메커니즘이 마련되어 있습니다: 1. 파일은 Hub 에서 완전히 공개되어 있으며, 2. 사용자는 trust_remote_code=True 를 명시적으로 설정하여 모델과 관련된 코드를 실행할 수 있어야 하며, 3. Hub 의 파일에 대한 보안 스캐너가 작동하여 악성 코드 파일을 표시합니다. 추가적인 주의가 필요하다면 revision 설정을 사용하여 검토된 모델링 코드 버전을 다운로드할 수 있습니다.

따라서 가중치 다운로드와 코드 검토 후 모델링 코드의 실행 모두 안전합니다. 이는 백도어나 악성 코드 실행의 위험 없이 DeepSeek 모델을 로컬에서 실행할 수 있음을 의미합니다.

모델을 다운로드하고 실행하는 것 외의 주요 리스크는 무엇일까요? 그것은 모델 출력으로 무엇을 하는지에 달려있습니다!

다음 조언은 특정 모델에 국한되지 않으며, 오픈 소스 및 폐쇄형 모델 모두에 적용됩니다: 모델 내장 비밀 행동에서 비롯된 리스크 또는 모델이 의도치 않게 잘못된 출력을 생성하는 경우를 고려할 때.

우리는 세 가지 영역의 리스크를 다룰 것입니다: 정렬 (alignment), 코드 생성, 에이전트.

Alignment mismatch: 각 모델 제공자는 자신의 모델이 어떻게 그리고 어떤 가치에 맞춰져 있는지 선택합니다. 이러한 가치들이 무엇이며 어떻게 선택되는지는 일반적으로 불투명하며, 시간이 지남에 따라 변경될 수도 있습니다 (이 연구 참조). 오픈 모델의 장점은 Perplexity 의 DeepSeek 1776 을 예로 들면, 후속 단계에서 커스텀 파인튜닝을 통해 알리먼트를 변경할 수 있다는 점입니다.

일반적으로 사용자는 어떤 LLM 도 어느 정도 편향되어 있음을 인지해야 하며, 이를 고려하여 모델 출력을 처리해야 합니다.

코드 생성: LLM 의 가장 인기 있는 용도 중 하나는 코드 어시스턴트입니다. 그러나 이는 모델 출력을 무분별하게 사용할 때 가장 부정적인 영향을 미칠 수 있는 부분이기도 합니다. 모델은 새로운 코드와 오래된 코드를 포함한 방대한 양의 게시된 코드로 훈련됩니다. 이는 잠재적으로 악성인 코드나 알려진 취약점을 포함하는 코드를 포함할 수 있습니다. 따라서 모델은 코드 솔루션을 제안할 때 유사한 취약점을 생성할 수 있습니다.

따라서 LLM 을 코드 개발에 사용할 때 보안 문제를 어떻게 예방할 수 있습니까? 제안된 변경 사항을 철저하게 검토하고, 다른 코드 기여와 마찬가지로 취약점 검색 도구로 코드를 스캔해야 합니다.

Agents: 지난 몇 달 동안 에이전트 애플리케이션은 큰 관심을 받았습니다. LLM 에 더 많은 자율성과 주권을 부여하는 것은 위험을 동반합니다. 에이전트가 어떤 시스템 접근 권한을 가지고 있는지, 그리고 제공한 정보가 무엇인지에 대해 주의 깊게 다뤄야 합니다. 좋은 실천법:

샌드박스: 컴퓨터에 접근하고 제어할 수 있는 환경에서 에이전트를 실행하지 마십시오. 이는 개인 정보를 누설하거나 중요한 파일을 우연히 삭제하는 것을 방지합니다.개인 정보: 로그인과 같은 개인 정보를 LLM 과 공유하지 마십시오. 시스템에 모델 접근 권한이 필요한 경우, 엄격한 접근 규칙을 가진 전용 액세스 키를 사용해야 합니다.인간-인-루프: 에이전트로 자동화하고 싶은 고위험 프로세스의 경우 최종 확인을 위해 루프에 인간이 있어야 합니다.

TL;DR: 모델을 실행하는 것이 안전합니까? 네, 모델 다운로드 및 실행은 안전합니다. 그러나 어떤 모델과 마찬가지로, 모델 생성을 사용할 때 적절한 안전 조치를 취해야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Open R1: 업데이트 #4

요약

핵심 포인트

댓글