arXiv논문2026. 04. 29. 19:25

클라우드에서 엣지까지: 하드웨어 가속을 갖춘 싱글보드 컴퓨터에서의 LLM 추론 벤치마킹

요약

본 논문은 클라우드 의존성 및 데이터 프라이버시 문제를 해결하기 위해, 하드웨어 가속기를 탑재한 싱글보드 컴퓨터(SBC)에서의 LLM 추론 성능을 다차원적으로 평가하는 새로운 벤치마킹 방법론을 제안합니다. 이 방법론은 NPU와 GPU 같은 다양한 가속기의 활용이 전력 효율성, 물리적 크기, 토큰 처리량 등 여러 요소에 미치는 트레이드오프를 정량화하여 보여줍니다. 이를 통해 무인 차량이나 현장 환경과 같이 연결성이 제한되고 프라이버시가 중요한 곳에 생성형 AI를 실용적으로 배포할 수 있는 지침을 제공합니다.

핵심 포인트

클라우드 기반 LLM 배포의 한계(프라이버시, 지연 시간, 비용)를 극복하기 위해 엣지 디바이스에서의 로컬 추론이 중요해지고 있습니다.
기존 벤치마킹은 CPU 중심이었고 하드웨어 가속기의 다차원적 평가가 부족했으나, 본 연구는 NPU/GPU 등 최신 가속기를 포함한 포괄적인 방법을 제시합니다.
제안된 방법론은 추론 성능뿐만 아니라 전력 효율성, 물리적 크기, 토큰 처리량 간의 트레이드오프를 동시에 평가하여 실용성을 높입니다.
이러한 다차원 평가는 무인 차량이나 현장 등 연결성이 제한되고 프라이버시가 중요한 환경에 생성형 AI를 배포하는 데 구체적인 지침을 제공합니다.

대형 언어 모델 (LLMs) 은 작은 파라미터 규모에서도 점차 능력을 키우고 있습니다. 동시에, 기존 클라우드 중심 배포 방식은 운영 기술 및 국방 환경에서 특히 심각한 데이터 프라이버시, 지연 시간, 비용 등의 과제를 야기합니다. 모델 디스틸레이션, 양자화 기술의 발전과 저렴한 엣지 가속기의 등장으로 인해 싱글보드 컴퓨터 (Single-Board Computers) 에서 로컬 LLM 추론이 가능해졌지만, 구성 공간의 고차원성으로 인해 구조화된 평가 없이 최적의 배포를 식별하는 것은 어렵습니다. 기존 LLM 특화 엣지 벤치마킹 노력은 CPU 만을 이용한 추론에 의존하며, 진정한 싱글보드 컴퓨터에 대한 커버리지가 부족하고, 하드웨어 효과성에 대한 다차원적 평가를 결여한 일반화된 평가 작업을 사용합니다. 본 논문에서는 최신 가용 하드웨어 가속기를 탑재한 싱글보드 컴퓨터를 대상으로 IoT 적합 엣지 플랫폼 4 가지 구성에서 추론 성능과 하드웨어 효율성을 공동으로 평가하는 다차원 벤치마킹 방법론을 제안합니다. 우리의 결과는 NPU 와 GPU 같은 하드웨어 가속기를 사용하는 이점과 전력 효율성, 물리적 장치 크기, 토큰 처리량 (token throughput) 간의 트레이드오프를 정량화하는 다차원 평가를 보여주며, 무인 차량 및 휴대용 견고한 운영 (portable, ruggedised operations) 과 같이 프라이버시 민감하고 연결성이 제한된 환경에서 생성형 AI 를 배포하기 위한 실용적인 지침을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

클라우드에서 엣지까지: 하드웨어 가속을 갖춘 싱글보드 컴퓨터에서의 LLM 추론 벤치마킹

요약

핵심 포인트

댓글