arXiv논문2026. 06. 03. 11:32

E2LLM: 이기종 Edge/Fog 환경에서의 효율적인 LLM 서빙을 향하여

요약

자원이 제한된 Edge/Fog 환경에서 효율적인 LLM 서빙을 위한 프레임워크 E2LLM을 제안합니다. 유전 알고리즘과 동적 계획법을 활용해 장치 클러스터를 구성하고 모델 병렬화를 최적화하여 지연 시간을 대폭 단축합니다.

핵심 포인트

Edge/Fog 환경을 위한 E2LLM 프레임워크 제안
PREFILL 및 DECODER 역할 분담을 통한 추론 최적화
유전 알고리즘 기반의 최적 클러스터 형성
동적 계획법을 이용한 모델 분할 전략 결정
기존 Splitwise 대비 평균 대기 시간 50% 이상 단축

대규모 언어 모델 (LLMs)은 현대 애플리케이션의 필수적인 요소가 되었지만, 이를 배포하는 것은 여전히 도전적인 과제로 남아 있습니다. 모델 자체를 실행하는 것을 넘어, 실제 배포에서는 비용 효율성, 낮은 지연 시간 (low latency), 그리고 최적의 자원 활용 문제를 해결해야 합니다. 기존의 접근 방식은 일반적으로 전체 모델이 단일 장치에 호스팅될 수 있다고 가정하지만, 이는 많은 실제 시나리오, 특히 장치 자원이 제한된 Edge 및 Fog 환경에서는 성립하지 않습니다. 본 논문에서는 이러한 자원 제한적인 환경에서 효율적인 LLM 배포를 가능하게 하도록 설계된 프레임워크인 E2LLM을 소개합니다. E2LLM은 단순히 가용 가능한 모든 장치에 단일 모델을 분할하는 대신, 여러 장치 그룹(replicas)에 전체 모델을 복제하고 각 복제본(replica) 내에서 모델 병렬화 (model parallelism)를 적용합니다. 각 복제본은 입력 및 출력 토큰을 처리하는 효율성에 따라 PREFILL 또는 DECODER라는 특화된 역할을 할당받습니다. 이러한 분리는 LLM 추론 (inference)의 두 단계 사이의 본질적인 차이를 활용합니다. 장치를 효과적으로 구성하기 위해, 우리는 시스템 성능을 극대화하는 클러스터를 형성하도록 유전 알고리즘 (Genetic Algorithm)을 사용합니다. 각 클러스터 내에서는 모델 병렬 실행 시의 병목 현상을 최소화하는 최적의 분할 전략을 결정하기 위해 동적 계획법 (Dynamic Programming)을 적용합니다. 실험 결과에 따르면, 우리의 접근 방식은 입력 및 출력 토큰 길이의 변화가 큰 시나리오를 포함하여 다양한 워크로드에 견고하게 적응함을 보여줍니다. Splitwise 베이스라인과 비교했을 때, E2LLM은 수요가 높은 조건에서 평균 대기 시간을 50% 이상 단축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

E2LLM: 이기종 Edge/Fog 환경에서의 효율적인 LLM 서빙을 향하여

요약

핵심 포인트

댓글