커스텀 WebGPU 커널을 사용하여 브라우저에서 1,400 tok/s로 실행되는 LFM2.5 230M

요약

커스텀 WebGPU 커널을 활용하여 브라우저 환경에서 LFM2.5-230M 모델을 로컬로 실행하는 기술을 소개합니다. M4 Max 환경에서 초당 1,400 토큰의 빠른 추론 속도를 구현했습니다.

Fable 5(폐쇄 전)와 Opus 4.8이 작성한 커스텀 WebGPU 커널을 사용하여 모든 것이 브라우저에서 로컬로 실행됩니다. 영상은 저의 M4 Max에서 녹화되었습니다.

/u/xenovatech 제출

AI 자동 생성 콘텐츠