r/LocalLLaMA분석2026. 05. 03. 22:01

FPGA 에서 50,000 tps 로 실행되는 Karpathy 의 MicroGPT

요약

이 기술 기사는 Karpathy의 MicroGPT를 FPGA 환경에서 50,000 tps라는 높은 속도로 실행한 사례를 다루고 있습니다. 비록 파라미터 수가 적은 소형 모델이지만, 온보드(onboard) ROM에 가중치를 배치함으로써 외부 메모리 의존성을 줄여 성능을 극대화했습니다. 이러한 접근 방식은 향후 더 많은 파라미터를 처리할 수 있는 SLM 전용 FPGA 개발 및 관련 기술 발전에 기여할 것으로 기대됩니다.

핵심 포인트

FPGA를 활용하여 Karpathy의 MicroGPT와 같은 소형 언어 모델(SLM)을 구현했습니다.
온보드 ROM에 가중치를 배치하는 것이 외부 메모리 사용보다 성능 향상에 결정적인 역할을 했습니다.
현재 FPGA는 16비트 가중치 기준으로 최대 2,000만~3,000만 개의 파라미터까지 처리 가능합니다.
이러한 연구 결과는 SLM 전용 FPGA 개발 및 관련 하드웨어 기술 발전에 기여할 잠재력을 보여줍니다.

물론 파라미터 수는 4,192 개로 적지만 시작은 되었다. 프로젝트 개요는 여기: https://v2.talos.wtf/ 그리고 GitHub 저장소는 여기: https://github.com/Luthiraa/TALOS-V2

일부 속도는 외부 메모리가 아닌 온보드 (onboard) 에 가중치를 배치함으로써 얻어졌다. 온보드 ROM 을 사용하면 16 bit 가중치를 가진 현재 FPGA 는 최대 2,000 만~3,000 만 개의 파라미터까지 처리할 수 있지만, 아마도 이 프로젝트와 Taalas (https://taalas.com/ - 유사한 이름은 우연일 가능성이 낮음) 가 FPGA 에 온보드 ROM 이 더 많이 등장하거나 SLM(소형 언어 모델) 전용 FPGA 가 개발되는 데 기여할 것으로 보인다.

AI 자동 생성 콘텐츠

원문 바로가기

FPGA 에서 50,000 tps 로 실행되는 Karpathy 의 MicroGPT

요약

핵심 포인트

댓글