Intel® Core™ Ultra 를 활용한 Qwen3-8B 에이전트 가속화: 깊이 절단된 드래프트 모델

요약

본 기사는 Intel Core Ultra 환경에서 Qwen3-8B 에이전트의 추론 속도를 극대화하는 방법을 제시합니다. 핵심은 Speculative Decoding(추측적 디코딩)과 드래프트 모델에 대한 Pruning(절단) 기술을 결합하여, 생성 속도를 최대 1.4배까지 가속화한 것입니다. 이러한 최적화된 Qwen3 기반 에이전트는 🤗smolagents와 같은 프레임워크를 통해 로컬 환경에서 도구 호출, 다단계 추론 등 복잡한 AI 에이전트 워크플로우를 효율적으로 실행할 수 있음을 입증했습니다.

핵심 포인트

Qwen3-8B는 도구 호출 및 다단계 추론을 지원하는 최신 에이전트 모델로, 로컬 AI 애플리케이션에 적합합니다.
Speculative Decoding은 작은 드래프트 모델(Qwen3-0.6B)을 사용하여 큰 타겟 모델(Qwen3-8B)의 생성 속도를 높이는 기술입니다.
드래프트 모델에 Pruning(레이어 절단)을 적용하여, 기존 Speculative Decoding 대비 1.4배라는 더 높은 가속 성능을 달성했습니다.
OpenVINO와 Intel Core Ultra 환경에서 최적화된 Qwen3 모델은 로컬 AI 에이전트의 실용성을 크게 향상시키며, 다양한 프레임워크(smolagents, AutoGen 등)와 통합될 수 있습니다.

TL;DR:

Qwen3-8B 는 에이전트 기능을 내장한 최신 모델 중 하나로, AIPC(All-in-One Personal Computer) 에 자연스러운 적합성을 가집니다.

OpenVINO.GenAI 를 통해 Qwen3-0.6B 의 경량 드래프트 모델을 활용한 Speculative Decoding(추측적 디코딩) 을 적용하여 생성 속도를 약 1.3 배로 가속화했습니다.

Speculative Decoding 과 드래프트에 간단한 Pruning(절단) 프로세스를 적용하여 속도 향상률을 약 1.4 배까지 높였습니다.

이러한 개선 사항을 활용하여 🤗 smolagents 를 통해 빠른 로컬 AI 에이전트를 실행하는 방법을 보여줌으로 마무리했습니다.

Qwen3-8B 는 명시적인 에이전트 행동을 학습한 최신 Qwen 시리즈의 일부로, 도구 호출, 다단계 추론, 긴 컨텍스트 처리 기능을 지원하여 복잡한 에이전트 워크플로우에 적합합니다. Hugging Face 🤗smolagents, QwenAgent, AutoGen 등의 프레임워크와 통합될 경우, 도구 사용과 추론을 기반으로 한 다양한 에이전트 애플리케이션이 가능해집니다. 단일 턴 채팅봇과 달리, 에이전트 애플리케이션은 "생각하는 소리"(thinking aloud) 추적과 토큰 사용량을 증가시키는 중간 단계를 생성하는 추론 모델을 의존합니다. 최적화된 추론과 내장된 에이전트 지능의 결합은 Qwen3-8B 를 차세대 AI 에이전트의 유망한 기반이 되도록 합니다.

우리는 Intel Lunar Lake 통합 GPU 에서 4-bit 최적화된 OpenVINO 버전의 Qwen3-8B 를 벤치마킹하여 추가 가속화의 기준선으로 설정했습니다.

Speculative Decoding 은 자동 회귀 생성 속도를 높이는 방법입니다. 이는 작은 빠른 모델을 드래프트로 사용하여 단일 포워드 패스 (forward pass) 에서 여러 토큰을 제안하고, 이를 더 큰 타겟 모델이 하나의 포워드 패스에서 검증하는 방식으로 작동합니다. 우리 설정에서는 Qwen3-8B 가 타겟 모델로, Qwen3-0.6B 가 드래프트로 사용되었습니다. 이 접근법은 기준선 대비 평균 1.3 배의 속도 향상을 제공했습니다.

from openvino_genai import LLMPipeline, draft_model
target_path = "/path/to/target/Qwen3-8B-int4-ov"
draft_path = "/path/to/draft/Qwen3-0.6B-int8-ov"
...

LLMPipeline 를 초기화하기 전에 타겟 및 드래프트 모델이 OpenVINO 로 변환되었는지 확인하세요. 미리 변환된 모델을 제공된 링크에서 다운로드하거나, 자체 모델을 변환하는 방법을 따르세요.

Speculative Decoding 의 속도 향상은 타겟의 포워드 단계당 생성 토큰 수 (average number of generated tokens per forward step), Speculation Window Size, 그리고 타겟과 드래프트 모델의 Latency 비율에 의존합니다. 작은 빠른 (하지만 정확도는 낮음) 드래프트는 종종 더 큰 가속화를 제공합니다. 이는 드래프트 모델을 축소하되 품질을 유지하는 것을 영감을 주었습니다.

우리의 최근 연구는 모델 깊이 (레이어 수) 가 추론 지연의 주요 기여자임을 보여줍니다. 레이어별 압축 [1] 에 대한 최근 연구에서 영감을 받았습니다. 우리 접근법에서는 각기각각의 블록이 적게 기여하는 레이어를 식별하고, 이를 제거합니다. Pruning 후 정확도를 회복하기 위해 Fine-tuning 을 적용했습니다. 이 방법을 사용하여 Qwen3-0.6B 드래프트 모델에서 28 개 중 6 개의 레이어를 절단했습니다. Pruned 드래프트 모델의 품질을 회복하기 위해, Qwen3-8B 로 생성된 Synthetic Data 를 추가로 Fine-tuning 했습니다. 데이터는 BAAI/Infinity-Instruct 데이터셋의 500k 프롬프트에 대한 응답을 생성하여 생성되었습니다.

기존에 생성된 pruned draft 모델은 baseline 대비 약 1.4 배의 속도 향상을 제공했으며, 이는 원래 draft 를 사용한 경우의 약 1.3 배 개선보다 더 우수한 결과입니다. 이 결과는 이론적 예측과 일치합니다 - draft latency 를 줄이면 전체적인 속도 향상 (overall speedup) 이 개선되어 더 빠르고 효율적인 inference 가 가능해집니다.

이것은 pruning + speculative decoding 이 어떻게 더 빠르고 효율적인 inference 를 실현할 수 있는지 보여주며, 로컬 AI 에이전트 (local AI agents) 의 실용성을 더욱 높입니다.

결과를 단계별로 재현하려면 notebook 과 Qwen3-0.6B depth-pruned draft 모델을 확인하세요.

실제 세계적 잠재력을 보여주기 위해 우리는 최적화된 설정을 🤗smolagents 라이브러리와 함께 배포했습니다. 이 통합을 통해 개발자는 Qwen3-8B (우리의 pruned draft 와 함께) 를 플러그인하여 API 와 외부 도구를 호출하고, 코드를 작성 및 실행하며, 긴 컨텍스트 추론을 수행하고 Intel® Core™ Ultra 에서 효율적으로 실행되는 에이전트를 구축할 수 있습니다. 이 혜택은 Hugging Face 에만 국한되지 않으며, AutoGen 또는 QwenAgent 같은 프레임워크와도 원활하게 사용될 수 있어 agentic ecosystem 을 더욱 강화합니다.

우리의 데모에서는 가속화된 Qwen3 기반 에이전트에게 다음 과제를 부여했습니다: 👉 Qwen3 모델 시리즈의 주요 기능을 요약하고 슬라이드 데크로 제시하세요.

이것은 어떻게 작동했는지:

에이전트는 최신 정보를 수집하기 위해 웹 검색 도구를 사용했습니다.
그 후 python-pptx 라이브러리를 사용하여 슬라이드를 생성하기 위해 Python 인터프리터로 전환했습니다.

이 간단한 워크플로는 가속화된 Qwen3 모델이 🤗smolagents 같은 프레임워크와 만나게 될 때 열려있는 가능성의 일부만을 보여줍니다. AI PC 에서 실용적이고 효율적인 AI 에이전트를 실현합니다. 여기에서 시도해보세요 🚀

[1] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., & Roberts, D. A. (2025 년 1 월 22 일). 더 깊은 레이어의 비합리적인 무효화. ICLR 2025 에서 포스터 발표. https://arxiv.org/abs/2403.17887

성과 및 법적 고지

성과 결과는 2025 년 9 월 기준 OpenVINO™ 2025.2 와 내부 벤치마킹을 기반으로 하며, Intel® Core™ Ultra 7 268V 2.20 GHz 프로세서 (Intel® Arc™ 140V GPU 통합) 와 32 GB DDR5 메모리를 함께 사용합니다.
성과는 사용, 구성 및 기타 요인에 따라 달라집니다. www.Intel.com/PerformanceIndex 에서 자세히 확인하세요.
어떤 제품이나 구성 요소도 절대적으로 안전할 수 없습니다.
비용과 결과는 다를 수 있습니다.
Intel 기술은 활성화된 하드웨어, 소프트웨어 또는 서비스 활성화가 필요할 수 있습니다.
다른 이름과 브랜드는 타인의 재산으로 주장될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Intel® Core™ Ultra 를 활용한 Qwen3-8B 에이전트 가속화: 깊이 절단된 드래프트 모델

요약

핵심 포인트

댓글