HuggingFace헤드라인2026. 05. 04. 20:48

OpenAI 의 새로운 오픈소스 모델 가족 GPT OSS를 환영합니다!

요약

OpenAI가 새로운 오픈소스 모델 가족인 GPT OSS를 Apache 2.0 라이선스로 공개하며, 이는 AI의 접근성을 높이고 커뮤니티에 기여하려는 의지를 보여줍니다. 이 모델들은 총 21B와 117B 파라미터 크기로 제공되며, 특히 mxfp4 양자화 스키마를 사용하여 메모리 효율성을 극대화했습니다. 사용자는 Hugging Face Inference Providers 및 Responses API를 통해 로컬 환경이나 다양한 클라우드 서비스에서 이 모델들을 쉽게 배포하고 사용할 수 있습니다.

핵심 포인트

GPT OSS는 Apache 2.0 라이선스로 공개되어 커뮤니티의 자유로운 활용을 보장합니다.
모델은 mxfp4 양자화와 MoE(Mixture-of-Experts) 아키텍처를 채택하여 메모리 효율성과 성능을 동시에 확보했습니다.
Hugging Face Inference Providers 및 Responses API를 통해 다양한 환경에서 일관되고 쉬운 접근성을 제공합니다.
21B 모델은 16GB GPU에서도 실행 가능하도록 최적화되어, 소비자급 하드웨어에서의 활용도를 높였습니다.

커뮤니티에 더 좋고 영향력 있게 하기 위해, 모델은 Apache 2.0 라이선스 하에 배포되며 최소한의 사용 정책과 함께 제공됩니다:

우리의 도구는 안전하고 책임감 있고 민주적으로 사용되도록, 그리고 사용자가 어떻게 사용하는지에 대한 통제력을 극대화하도록 설계되었습니다. gpt-oss 를 사용할 때, 모든 관련 법규를 준수할 것을 동의합니다.

OpenAI 에 따르면, 이 릴리스는 오픈소스 생태계에 대한 그들의 헌신에 의미 있는 단계이며, AI 의 혜택을 광범위하게 접근 가능하게 한다는 명시된 미션과 일치합니다. 많은 사용 사례가 사적 및/또는 로컬 배포에 의존하며, 우리는 Hugging Face 에서 커뮤니티에 OpenAI 를 환영하는 데 매우 열정적입니다. 우리는 이것이 장기적으로 영감을 주고 영향력 있는 모델이 될 것이라고 믿습니다.

소개
개요
Inference Providers 를 통한 API 접근
로컬 추론
Fine Tuning
Hugging Face 파트너에서 배포
모델 평가
채팅 및 채팅 템플릿
총 21B 와 117B 파라미터, 각각 3.6B 와 5.1B 활성파라미터.
mxfp4 형식을 사용하는 4-bit 양자화 스키마. MoE 가중치에만 적용됨. 명시된 바와 같이, 120B 는 단일 80 GB GPU 에 들어가고, 20B 는 단일 16GB GPU 에 들어갑니다.
추론, 텍스트 전용 모델; 체인 오브 싱크 (chain-of-thought) 와 조정 가능한 추론 노력 수준을 포함합니다.
지시어 수행 및 도구 사용 지원.
transformers, vLLM, llama.cpp, ollama 를 사용한 추론 구현.
추론에는 Responses API 가 권장됩니다.
라이선스: Apache 2.0, 작은 보완적 사용 정책과 함께.

아키텍처

Token-choice MoE 와 SwiGLU 활성화.
MoE 가중치를 계산할 때, 선택된 전문가에 대한 softmax 가 취됩니다 (softmax-after-topk).
각 주의 층은 128K 컨텍스트를 사용하는 RoPE 를 사용합니다.
대안 주의 층: 전체 컨텍스트 및 슬라이딩 128 토큰 윈도우.
주의 층은 학습된 주의 싱크 (learned attention sink) 를 사용하며, softmax 의 분모에 추가적 가산값이 있습니다.
GPT-4o 와 다른 OpenAI API 모델과 동일한 토크나이저를 사용합니다.
일부 새로운 토큰이 Responses API 와의 호환성을 위해 통합되었습니다.

OpenAI GPT OSS 모델은 Hugging Face 의 Inference Providers 서비스를 통해 접근 가능하며, 같은 JavaScript 또는 Python 코드로 지원된 제공업체에 요청을 보낼 수 있습니다. 이는 gpt-oss.com 의 공식 데모를 구동하는 동일한 인프라이며, 자신의 프로젝트에 사용할 수 있습니다.

아래는 Python 과 초고속 Cerebras 제공업체를 사용하는 예제입니다. 자세한 정보 및 추가 스니펫은 모델 카드의 Inference Providers 섹션과 우리가 이 모델들을 위해 만든 전용 가이드를 확인하세요.

import os
from openai import OpenAI
client = OpenAI(
...

Inference Providers 는 또한 가장 진보된 OpenAI 인터페이스인 Responses API 를 구현하며, 더 유연하고 직관적인 상호작용을 위한 것입니다.

아래는 Fireworks AI 제공업체와 Responses API 를 사용하는 예제입니다. 자세한 내용은 open-source responses.js 프로젝트를 확인하세요.

import os
from openai import OpenAI
client = OpenAI(
...

최신 transformers
릴리스 (v4.55.1 또는 그 이후 버전) 와 accelerate, kernels 를 설치해야 합니다. 또한 triton 3.4 또는 더 높은 버전을 설치하는 것을 권장하며, 이는 CUDA 하드웨어에서 mxfp4
양자화를 지원해 줍니다:

pip install --upgrade transformers kernels accelerate "triton>=3.4"

모델 가중치는 mxfp4
형식으로 양자화되어 있으며, 원래는 Hopper 또는 Blackwell 가족의 GPU 에서 사용 가능했지만, 이제 이전 CUDA 아키텍처 (Ada, Ampere, Tesla 포함) 에서도 작동합니다. triton 3.4 와 kernels 라이브러리를 설치하면 첫 번째 사용 시 최적화된 mxfp4
커널을 다운로드할 수 있어 큰 메모리 절약을 달성합니다. 이러한 구성 요소가就位한 경우, RAM 이 16 GB 인 GPU 에서 20B 모델을 실행할 수 있습니다. 이는 많은 소비자 카드 (3090, 4090, 5080) 및 Colab 과 Kaggle 을 포함합니다!

이전 라이브러리가 설치되지 않은 경우 (또는 호환되는 GPU 가 없는 경우),

AI 자동 생성 콘텐츠

원문 바로가기

OpenAI 의 새로운 오픈소스 모델 가족 GPT OSS를 환영합니다!

요약

핵심 포인트

댓글