본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 26. 03:43

커스텀 WebGPU 커널을 사용하여 브라우저에서 1,400 tok/s로 실행되는 LFM2.5 230M

요약

커스텀 WebGPU 커널을 활용하여 브라우저 환경에서 LFM2.5-230M 모델을 로컬로 실행하는 기술을 소개합니다. M4 Max 환경에서 초당 1,400 토큰의 빠른 추론 속도를 구현했습니다.

핵심 포인트

  • WebGPU 커널을 통한 브라우저 내 로컬 LLM 실행
  • LFM2.5-230M 모델 사용 및 GGUF 포맷 활용
  • M4 Max 기준 1,400 tok/s의 높은 추론 성능 달성

Fable 5(폐쇄 전)와 Opus 4.8이 작성한 커스텀 WebGPU 커널을 사용하여 모든 것이 브라우저에서 로컬로 실행됩니다. 영상은 저의 M4 Max에서 녹화되었습니다.

모델: LiquidAI/LFM2.5-230M (GGUF)
데모: https://huggingface.co/spaces/webml-community/lfm2-webgpu-kernels

/u/xenovatech 제출

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0