HuggingFace헤드라인2026. 05. 07. 07:16

Hugging Face 인퍼런스 제공자 Groq 소개 🔥

요약

Groq이 Hugging Face Hub의 공식 인퍼런스 제공자로 추가되어, 사용자들이 모델 페이지에서 직접 서버리스 추론을 실행할 수 있게 되었습니다. Groq는 LPU(Language Processing Unit)라는 독자적인 하드웨어 시스템을 사용하여 LLM에 대한 매우 빠른 추론 속도와 높은 처리량을 제공합니다. 이제 개발자들은 Python 및 JavaScript 클라이언트 SDK를 통해 다양한 오픈소스 모델을 선택한 인퍼런스 제공자를 쉽게 통합하여 실시간 AI 애플리케이션을 구축할 수 있습니다.

핵심 포인트

Groq이 Hugging Face Hub의 공식 인퍼런스 제공자로 추가되어 생태계가 확장되었습니다.
Groq는 LPU(Language Processing Unit)를 사용하여 LLM 추론에 최적화된 초고속 성능을 자랑합니다.
사용자들은 Python 및 JavaScript SDK를 통해 여러 인퍼런스 제공자를 쉽게 전환하며 사용할 수 있습니다.
API 호출 시, 사용자는 Groq의 자체 API 키를 직접 사용하거나 Hugging Face Hub를 통한 라우팅 방식을 선택할 수 있습니다.

Groq이 이제 Hugging Face Hub 의 지원되는 인퍼런스 제공자로 추가되었습니다!

Groq 는 Hub 의 모델 페이지에 직접 서버리스 인퍼런스를 확장하여 생태계의 폭과 능력을 향상시켰습니다. 인퍼런스 제공자는 JS 와 Python 을 모두 위한 클라이언트 SDK 에도 원활하게 통합되어 있어, 선호하는 제공자와 다양한 모델을 사용하는 것이 매우 쉬워졌습니다.

Groq 는 Meta 의 Llama 4, Qwen 의 QWQ-32B 등 최신 오픈소스 모델을 포함한 다양한 텍스트 및 대화형 모델을 지원합니다.

Groq 기술의 핵심은 Large Language Models (LLMs) 과 같은 시퀀스 컴포넌트를 가진 계산 집약적 애플리케이션에 대해 가장 빠른 인퍼런스를 제공하는 새로운 종단 간 처리 장치 시스템인 Language Processing Unit (LPU™) 입니다. LPUs 는 GPU 의 인퍼런스 한계를 극복하도록 설계되어, 지연 시간을 크게 줄이고 처리량을 높였습니다. 이는 실시간 AI 애플리케이션에 이상적입니다.

Groq 는 오픈 액세스 모델에 대한 빠른 AI 인퍼런스를 제공합니다. 개발자가 이러한 모델을 애플리케이션에 쉽게 통합할 수 있도록 API 를 제공합니다. 다양한 오픈 액세스 LLMs 에 접근하기 위한 수요 기반, 사용량 기반 모델을 제공합니다.

이제 Huggingface 에서 Groq 의 Inference API 를 인퍼런스 제공자로 사용할 수 있습니다. 이 새로운 제공자를 사용하여 무엇을 구축하실지 기대합니다.

Groq 를 인퍼런스 제공자로 사용하는 방법에 대해 자세히 알아보기 위해 전용 문서 페이지를 확인하세요.

지원되는 모델 목록을 확인하세요.

사용자 계정 설정에서 다음 작업을 수행할 수 있습니다:
- 등록한 제공자에 대한 자체 API 키를 설정할 수 있습니다. 커스텀 키가 설정되지 않은 경우 요청은 HF 를 통해 라우팅됩니다.
- 선호도에 따라 제공자를 정렬할 수 있습니다. 이는 모델 페이지의 위젯 및 코드 스니펫에 적용됩니다.
Inference Provider 를 호출할 때 두 가지 모드가 있습니다:
- 커스텀 키 (인퍼런스 제공자의 자체 API 키를 사용하여 인퍼런스 제공자에서 직접 호출됨)
- HF 로 라우팅 (이 경우 제공자 토큰은 필요 없으며, 비용은 제공자 계정이 아닌 HF 계정에서 직접 적용됩니다)
모델 페이지는 세 번째_party 인퍼런스 제공자를 소개합니다 (현재 모델과 호환되는 제공자, 사용자 선호도에 따라 정렬됨)

다음 예시는 Groq 를 인퍼런스 제공자로 사용하여 Meta 의 Llama 4 를 사용하는 방법을 보여줍니다. Hugging Face 토큰을 사용하여 Hugging Face 를 통해 자동 라우팅하거나, 자체 Groq API 키를 사용할 수 있습니다.

huggingface_hub 설치

소스 (지침 참조). 공식 지원은 곧 v0.33.0 버전에서 제공될 예정입니다.

import os
from huggingface_hub import InferenceClient
client = InferenceClient(
...

import { InferenceClient } from "@huggingface/inference";
const client = new InferenceClient(process.env.HF_TOKEN);
const chatCompletion = await client.chatCompletion({
...

직접 요청의 경우 (즉, 인퍼런스 제공자에서 키를 사용할 때) 해당 제공자에 의해 청구됩니다. 예를 들어 Groq API 키를 사용하는 경우 Groq 계정에서 청구됩니다.

라우팅된 요청의 경우 (즉, Hugging Face Hub 를 통해 인증할 때) 표준 제공자 API 요금만 지불합니다. 추가 마진 없이, 우리는 제공자 비용을 직접 전달합니다. (미래에는 파트너십을 맺어 수익 공유 협정을 체결할 수 있습니다.)

중요한 참고 사항 ‼️ PRO 사용자는 매월 $2 분량의 추론 크레딧을 제공합니다. 여러 제공자를 통해 사용할 수 있습니다. 🔥

우리는 로그인된 무료 사용자들에게도 소량 할당을 해提供免费 추론을 제공하고 있지만, 가능하다면 PRO로 업그레이드해 주세요!

귀하의 피드백을 얻고 싶습니다! 의견 및/또는 댓글을 여기에 공유해 주세요: https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

AI 자동 생성 콘텐츠

원문 바로가기