🚀 Intel Gaudi 기반 TGI 로 LLM 추론 가속화

요약

Hugging Face의 Text Generation Inference (TGI)가 Intel Gaudi 하드웨어 지원 기능을 공식적으로 통합하여 LLM 추론 배포의 유연성과 효율성을 크게 향상시켰습니다. 이전에는 별도의 포크(fork)를 사용해야 했으나, 이제 TGI의 다중 백엔드 아키텍처를 통해 Gaudi를 직접 지원하며, 이는 Gaudi1부터 Gaudi3까지 Intel의 전체 라인업을 커버합니다. 이 통합은 Llama 3.1, Mixtral 등 주요 모델에 대한 프로덕션급 기능을 제공하며, 비용 효율성과 다양한 하드웨어 옵션을 사용자에게 제시합니다.

핵심 포인트

TGI가 TGI 다중 백엔드 아키텍처를 통해 Intel Gaudi 지원을 공식 통합하여 사용 편의성을 높였습니다.
Gaudi1, Gaudi2, Gaudi3 등 Intel의 전체 Gaudi 하드웨어 라인업을 지원합니다.
이 기능은 Llama 3.1, Mixtral 등 인기 모델에 대해 동적 배치, 스트리밍 응답 등 프로덕션급 기능을 제공합니다.
Gaudi 환경에서 FP8 양자화 및 멀티 카드 추론(sharding)과 같은 고급 AI 기능을 활용할 수 있습니다.
공식 Docker 이미지를 사용하여 Gaudi 하드웨어 머신에서 쉽게 배포하고 테스트할 수 있습니다.

우리는 PR #3091 을 통해 TGI 의 메인 코드베이스에 Gaudi 지원 기능을 완전히 통합했습니다. 이전에는 tgi-gaudi 에서 별도의 포크 (fork) 를 유지해 왔습니다. 이는 사용자에게 불편을 주었으며, 최신 TGI 기능을 출시 시 지원하지 못하게 했습니다. 이제 새로운 TGI 다중 백엔드 (multi-backend) 아키텍처를 사용하여 TGI 에서 직접 Gaudi 를 지원합니다. 더 이상 커스텀 리포지토리에 대한 finicking(고민) 을 할 필요가 없습니다 🙌

이 통합은 Intel 의 전체 Gaudi 하드웨어 라인업을 지원합니다:

Gaudi1 💻: AWS EC2 DL1 인스턴스에서 사용 가능
Gaudi2 💻💻: Intel Tiber AI Cloud 및 Denvr Dataworks 에서 사용 가능
Gaudi3 💻💻💻: Intel Tiber AI Cloud, IBM Cloud 및 Dell, HP, Supermicro 와 같은 OEM 에서 사용 가능

Intel 의 Gaudi 제품 페이지에서 더 많은 정보를 찾을 수 있습니다.

TGI 의 Gaudi 백엔드는 다음과 같은 주요 이점을 제공합니다:

하드웨어 다양성 🔄: 전통적인 GPU 를 넘어 생산 환경에 LLM 을 배포할 수 있는 더 많은 옵션
비용 효율성 💰: 특정 워크로드에 대해 Gaudi 하드웨어는 매력적인 가격 성능을 제공합니다
프로덕션 준비 ⚙️: TGI 의 모든 견고함 (동적 배치, 스트리밍 응답 등) 이 이제 Gaudi 에서도 사용 가능
모델 지원 🤖: Llama 3.1, Mixtral, Mistral 등 인기 있는 모델을 Gaudi 하드웨어에서 실행
고급 기능 🔥: 멀티 카드 추론 (sharding), 비전 언어 모델, FP8 정밀도 지원

TGI 를 Gaudi 에서 실행하는 가장 쉬운 방법은 공식 Docker 이미지를 사용하는 것입니다. Gaudi 하드웨어 머신에서 이미지를 실행해야 합니다. 시작하기 위한 기본 예시는 다음과 같습니다:

model=meta-llama/Meta-Llama-3.1-8B-Instruct
volume=$PWD/data # Docker 컨테이너와 볼륨을 공유하여 각 실행마다 가중치를 다운로드하지 않도록 함
hf_token=YOUR_HF_ACCESS_TOKEN
...

서버가 실행되면 추론 요청을 보낼 수 있습니다:

curl 127.0.0.1:8080/generate
-X POST
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
...

TGI 와 Gaudi 를 사용하는 종합적인 문서, including how-to 가이드 및 고급 설정은 새로운 전용 Gaudi 백엔드 문서에서 확인하세요.

우리는 단일 카드 및 멀티 카드 구성을 위해 다음 모델을 최적화했습니다. 이는 이 모델들이 Intel Gaudi 에서 최대한 빠르게 실행됨을 의미합니다. 우리는 Intel Gaudi 하드웨어를 타겟팅하기 위해 모델링 코드를 특정적으로 최적화하여 최고의 성능을 제공하고 Gaudi 의 능력을 완전히 활용합니다:

Llama 3.1 (8B 및 70B)
Llama 3.3 (70B)
Llama 3.2 Vision (11B)
Mistral (7B)
Mixtral (8x7B)
CodeLlama (13B)
Falcon (180B)
Qwen2 (72B)
Starcoder 및 Starcoder2
Gemma (7B)
Llava-v1.6-Mistral-7B
Phi-2

🏃♂️ 우리는 또한 Gaudi 하드웨어에서 FP8 양자화 (Intel Neural Compressor (INC) 를 통해) 와 같은 많은 고급 기능을 제공합니다.

✨ 곧 출시 예정! 우리는 DeepSeek-r1/v3, QWen-VL 및 더 강력한 모델을 추가하여 AI 애플리케이션을 위한 모델 라인업을 확장할 예정입니다 🚀

우리는 커뮤니티에게 TGI 를 Gaudi 하드웨어에서 실행하고 피드백을 제공하는 것을 초대합니다. 전체 문서는 TGI Gaudi 백엔드 문서에서 확인할 수 있습니다 📚 기여에 관심이 있다면 기여 가이드라인을 확인하거나 GitHub 에서 이슈를 열어 피드백을 제출하세요 🤝 Intel Gaudi 지원 기능을 TGI 에 직접 통합함으로써 우리는 LLM 을 배포하기 위한 유연하고 효율적이고 프로덕션 준비된 도구를 제공하는 우리의 임무를 계속 수행합니다. 이 새로운 기능으로 무엇을 구축할지 기대합니다! 🎉

AI 자동 생성 콘텐츠

원문 바로가기

🚀 Intel Gaudi 기반 TGI 로 LLM 추론 가속화

요약

핵심 포인트

댓글