๋ณธ๋ฌธ์œผ๋กœ ๊ฑด๋„ˆ๋›ฐ๊ธฐ

ยฉ 2026 Molayo

HuggingFaceํ—ค๋“œ๋ผ์ธ2026. 05. 07. 13:42

๐Ÿš€ Intel Gaudi ๊ธฐ๋ฐ˜ TGI ๋กœ LLM ์ถ”๋ก  ๊ฐ€์†ํ™”

์š”์•ฝ

Hugging Face์˜ Text Generation Inference (TGI)๊ฐ€ Intel Gaudi ํ•˜๋“œ์›จ์–ด ์ง€์› ๊ธฐ๋Šฅ์„ ๊ณต์‹์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ LLM ์ถ”๋ก  ๋ฐฐํฌ์˜ ์œ ์—ฐ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด์ „์—๋Š” ๋ณ„๋„์˜ ํฌํฌ(fork)๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ–ˆ์œผ๋‚˜, ์ด์ œ TGI์˜ ๋‹ค์ค‘ ๋ฐฑ์—”๋“œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด Gaudi๋ฅผ ์ง์ ‘ ์ง€์›ํ•˜๋ฉฐ, ์ด๋Š” Gaudi1๋ถ€ํ„ฐ Gaudi3๊นŒ์ง€ Intel์˜ ์ „์ฒด ๋ผ์ธ์—…์„ ์ปค๋ฒ„ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ†ตํ•ฉ์€ Llama 3.1, Mixtral ๋“ฑ ์ฃผ์š” ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ”„๋กœ๋•์…˜๊ธ‰ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ์˜ต์…˜์„ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ํฌ์ธํŠธ

  • TGI๊ฐ€ TGI ๋‹ค์ค‘ ๋ฐฑ์—”๋“œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด Intel Gaudi ์ง€์›์„ ๊ณต์‹ ํ†ตํ•ฉํ•˜์—ฌ ์‚ฌ์šฉ ํŽธ์˜์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
  • Gaudi1, Gaudi2, Gaudi3 ๋“ฑ Intel์˜ ์ „์ฒด Gaudi ํ•˜๋“œ์›จ์–ด ๋ผ์ธ์—…์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๊ธฐ๋Šฅ์€ Llama 3.1, Mixtral ๋“ฑ ์ธ๊ธฐ ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋™์  ๋ฐฐ์น˜, ์ŠคํŠธ๋ฆฌ๋ฐ ์‘๋‹ต ๋“ฑ ํ”„๋กœ๋•์…˜๊ธ‰ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • Gaudi ํ™˜๊ฒฝ์—์„œ FP8 ์–‘์žํ™” ๋ฐ ๋ฉ€ํ‹ฐ ์นด๋“œ ์ถ”๋ก (sharding)๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ AI ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ณต์‹ Docker ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Gaudi ํ•˜๋“œ์›จ์–ด ๋จธ์‹ ์—์„œ ์‰ฝ๊ฒŒ ๋ฐฐํฌํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” PR #3091 ์„ ํ†ตํ•ด TGI ์˜ ๋ฉ”์ธ ์ฝ”๋“œ๋ฒ ์ด์Šค์— Gaudi ์ง€์› ๊ธฐ๋Šฅ์„ ์™„์ „ํžˆ ํ†ตํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ „์—๋Š” tgi-gaudi ์—์„œ ๋ณ„๋„์˜ ํฌํฌ (fork) ๋ฅผ ์œ ์ง€ํ•ด ์™”์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์šฉ์ž์—๊ฒŒ ๋ถˆํŽธ์„ ์ฃผ์—ˆ์œผ๋ฉฐ, ์ตœ์‹  TGI ๊ธฐ๋Šฅ์„ ์ถœ์‹œ ์‹œ ์ง€์›ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ƒˆ๋กœ์šด TGI ๋‹ค์ค‘ ๋ฐฑ์—”๋“œ (multi-backend) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ TGI ์—์„œ ์ง์ ‘ Gaudi ๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ๋” ์ด์ƒ ์ปค์Šคํ…€ ๋ฆฌํฌ์ง€ํ† ๋ฆฌ์— ๋Œ€ํ•œ finicking(๊ณ ๋ฏผ) ์„ ํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค ๐Ÿ™Œ

์ด ํ†ตํ•ฉ์€ Intel ์˜ ์ „์ฒด Gaudi ํ•˜๋“œ์›จ์–ด ๋ผ์ธ์—…์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค:

  • Gaudi1 ๐Ÿ’ป: AWS EC2 DL1 ์ธ์Šคํ„ด์Šค์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • Gaudi2 ๐Ÿ’ป๐Ÿ’ป: Intel Tiber AI Cloud ๋ฐ Denvr Dataworks ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • Gaudi3 ๐Ÿ’ป๐Ÿ’ป๐Ÿ’ป: Intel Tiber AI Cloud, IBM Cloud ๋ฐ Dell, HP, Supermicro ์™€ ๊ฐ™์€ OEM ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅ

Intel ์˜ Gaudi ์ œํ’ˆ ํŽ˜์ด์ง€์—์„œ ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

TGI ์˜ Gaudi ๋ฐฑ์—”๋“œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฃผ์š” ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:

  • ํ•˜๋“œ์›จ์–ด ๋‹ค์–‘์„ฑ ๐Ÿ”„: ์ „ํ†ต์ ์ธ GPU ๋ฅผ ๋„˜์–ด ์ƒ์‚ฐ ํ™˜๊ฒฝ์— LLM ์„ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๋Š” ๋” ๋งŽ์€ ์˜ต์…˜
  • ๋น„์šฉ ํšจ์œจ์„ฑ ๐Ÿ’ฐ: ํŠน์ • ์›Œํฌ๋กœ๋“œ์— ๋Œ€ํ•ด Gaudi ํ•˜๋“œ์›จ์–ด๋Š” ๋งค๋ ฅ์ ์ธ ๊ฐ€๊ฒฉ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค
  • ํ”„๋กœ๋•์…˜ ์ค€๋น„ โš™๏ธ: TGI ์˜ ๋ชจ๋“  ๊ฒฌ๊ณ ํ•จ (๋™์  ๋ฐฐ์น˜, ์ŠคํŠธ๋ฆฌ๋ฐ ์‘๋‹ต ๋“ฑ) ์ด ์ด์ œ Gaudi ์—์„œ๋„ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • ๋ชจ๋ธ ์ง€์› ๐Ÿค–: Llama 3.1, Mixtral, Mistral ๋“ฑ ์ธ๊ธฐ ์žˆ๋Š” ๋ชจ๋ธ์„ Gaudi ํ•˜๋“œ์›จ์–ด์—์„œ ์‹คํ–‰
  • ๊ณ ๊ธ‰ ๊ธฐ๋Šฅ ๐Ÿ”ฅ: ๋ฉ€ํ‹ฐ ์นด๋“œ ์ถ”๋ก  (sharding), ๋น„์ „ ์–ธ์–ด ๋ชจ๋ธ, FP8 ์ •๋ฐ€๋„ ์ง€์›

TGI ๋ฅผ Gaudi ์—์„œ ์‹คํ–‰ํ•˜๋Š” ๊ฐ€์žฅ ์‰ฌ์šด ๋ฐฉ๋ฒ•์€ ๊ณต์‹ Docker ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Gaudi ํ•˜๋“œ์›จ์–ด ๋จธ์‹ ์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์‹คํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์‹œ์ž‘ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ ์˜ˆ์‹œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

model=meta-llama/Meta-Llama-3.1-8B-Instruct
volume=$PWD/data # Docker ์ปจํ…Œ์ด๋„ˆ์™€ ๋ณผ๋ฅจ์„ ๊ณต์œ ํ•˜์—ฌ ๊ฐ ์‹คํ–‰๋งˆ๋‹ค ๊ฐ€์ค‘์น˜๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜์ง€ ์•Š๋„๋ก ํ•จ
hf_token=YOUR_HF_ACCESS_TOKEN
...

์„œ๋ฒ„๊ฐ€ ์‹คํ–‰๋˜๋ฉด ์ถ”๋ก  ์š”์ฒญ์„ ๋ณด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

curl 127.0.0.1:8080/generate
-X POST
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
...

TGI ์™€ Gaudi ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ข…ํ•ฉ์ ์ธ ๋ฌธ์„œ, including how-to ๊ฐ€์ด๋“œ ๋ฐ ๊ณ ๊ธ‰ ์„ค์ •์€ ์ƒˆ๋กœ์šด ์ „์šฉ Gaudi ๋ฐฑ์—”๋“œ ๋ฌธ์„œ์—์„œ ํ™•์ธํ•˜์„ธ์š”.

์šฐ๋ฆฌ๋Š” ๋‹จ์ผ ์นด๋“œ ๋ฐ ๋ฉ€ํ‹ฐ ์นด๋“œ ๊ตฌ์„ฑ์„ ์œ„ํ•ด ๋‹ค์Œ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด ๋ชจ๋ธ๋“ค์ด Intel Gaudi ์—์„œ ์ตœ๋Œ€ํ•œ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰๋จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Intel Gaudi ํ•˜๋“œ์›จ์–ด๋ฅผ ํƒ€๊ฒŸํŒ…ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ๋ง ์ฝ”๋“œ๋ฅผ ํŠน์ •์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜์—ฌ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๊ณ  Gaudi ์˜ ๋Šฅ๋ ฅ์„ ์™„์ „ํžˆ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค:

  • Llama 3.1 (8B ๋ฐ 70B)
  • Llama 3.3 (70B)
  • Llama 3.2 Vision (11B)
  • Mistral (7B)
  • Mixtral (8x7B)
  • CodeLlama (13B)
  • Falcon (180B)
  • Qwen2 (72B)
  • Starcoder ๋ฐ Starcoder2
  • Gemma (7B)
  • Llava-v1.6-Mistral-7B
  • Phi-2

๐Ÿƒโ™‚๏ธ ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ Gaudi ํ•˜๋“œ์›จ์–ด์—์„œ FP8 ์–‘์žํ™” (Intel Neural Compressor (INC) ๋ฅผ ํ†ตํ•ด) ์™€ ๊ฐ™์€ ๋งŽ์€ ๊ณ ๊ธ‰ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

โœจ ๊ณง ์ถœ์‹œ ์˜ˆ์ •! ์šฐ๋ฆฌ๋Š” DeepSeek-r1/v3, QWen-VL ๋ฐ ๋” ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ์ถ”๊ฐ€ํ•˜์—ฌ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•œ ๋ชจ๋ธ ๋ผ์ธ์—…์„ ํ™•์žฅํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค ๐Ÿš€

์šฐ๋ฆฌ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ์—๊ฒŒ TGI ๋ฅผ Gaudi ํ•˜๋“œ์›จ์–ด์—์„œ ์‹คํ–‰ํ•˜๊ณ  ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์„ ์ดˆ๋Œ€ํ•ฉ๋‹ˆ๋‹ค. ์ „์ฒด ๋ฌธ์„œ๋Š” TGI Gaudi ๋ฐฑ์—”๋“œ ๋ฌธ์„œ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค ๐Ÿ“š ๊ธฐ์—ฌ์— ๊ด€์‹ฌ์ด ์žˆ๋‹ค๋ฉด ๊ธฐ์—ฌ ๊ฐ€์ด๋“œ๋ผ์ธ์„ ํ™•์ธํ•˜๊ฑฐ๋‚˜ GitHub ์—์„œ ์ด์Šˆ๋ฅผ ์—ด์–ด ํ”ผ๋“œ๋ฐฑ์„ ์ œ์ถœํ•˜์„ธ์š” ๐Ÿค Intel Gaudi ์ง€์› ๊ธฐ๋Šฅ์„ TGI ์— ์ง์ ‘ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์šฐ๋ฆฌ๋Š” LLM ์„ ๋ฐฐํฌํ•˜๊ธฐ ์œ„ํ•œ ์œ ์—ฐํ•˜๊ณ  ํšจ์œจ์ ์ด๊ณ  ํ”„๋กœ๋•์…˜ ์ค€๋น„๋œ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์šฐ๋ฆฌ์˜ ์ž„๋ฌด๋ฅผ ๊ณ„์† ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์œผ๋กœ ๋ฌด์—‡์„ ๊ตฌ์ถ•ํ• ์ง€ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค! ๐ŸŽ‰

AI ์ž๋™ ์ƒ์„ฑ ์ฝ˜ํ…์ธ 

๋ณธ ์ฝ˜ํ…์ธ ๋Š” Hugging Face Blog์˜ ์›๋ฌธ์„ AI๊ฐ€ ์ž๋™์œผ๋กœ ์š”์•ฝยท๋ฒˆ์—ญยท๋ถ„์„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์› ์ €์ž‘๊ถŒ์€ ์›์ €์ž‘์ž์—๊ฒŒ ์žˆ์œผ๋ฉฐ, ์ •ํ™•ํ•œ ๋‚ด์šฉ์€ ๋ฐ˜๋“œ์‹œ ์›๋ฌธ์„ ํ™•์ธํ•ด ์ฃผ์„ธ์š”.

์›๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1

๋Œ“๊ธ€

0