대용량 모델을 저사양 RAM 환경에서 구동해 본 결과

저기서 '이 모델을 실행하려면 XXX VRAM 또는 통합 메모리가 필요하다'는 식의 글들을 많이 봐서 저도 확신이 서지 않았습니다. 그래서 오늘 드디어 테스트를 해봤습니다. 저는 4코어 i7 CPU가 장착된 노트북에서 추가 RAM 모듈을 제거하고 GPU 없이 LLM 엔진을 실행했는데, 당시 사용 가능한 DDR4 RAM은 2.6 GiB였고 (VRAM은 당연히 없음), SSD는 읽기 속도가 2.5 GB/s였습니다.

작은 프롬프트(20 토큰)를 처리하고 응답(~100-200 토큰)을 생성한 결과:

모델명, 크기 PP t/s TG t/s

Gemma 4 12B, Q4 7 GB 4 0.28
StepFun Flash 3.7 198B MoE 11B, Q6 163 GB 0.75 0.16

어떤 적당히 괜찮은 PC에서도 어떤 모델이든 구동할 수 있는 것 같습니다.
제출자 /u/alex20_202020
[링크] [댓글]

Insights

대용량 모델을 저사양 RAM 환경에서 구동해 본 결과

요약

핵심 포인트

댓글

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Claude Code (터미널)를 위한 커스텀 상태 표시줄(statusline) 제작 — 디자인 공유

어떤 AI 모델을 사용하는 것이 최선인지 묻는 것은 잘못된 질문입니다

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Claude Code (터미널)를 위한 커스텀 상태 표시줄(statusline) 제작 — 디자인 공유

어떤 AI 모델을 사용하는 것이 최선인지 묻는 것은 잘못된 질문입니다