GPU가 비싸서 '일본어 특화 클라우드 LLM'을 VPS 위에 구축한 이야기 (LFM2.5로 검증)

요약

GPU 없이 CPU 환경의 VPS(ConoHa)에서 Docker와 llama.cpp를 활용해 LFM2.5 모델을 구축한 사례를 다룹니다. 로컬 PC 대비 VPS 환경에서의 성능 향상 수치를 비교하고, 양자화 방식에 따른 차이를 분석합니다.

핵심 포인트

GPU 없이 CPU 전용 VPS 환경에서 LFM2.5 모델 구동 가능
로컬 PC 대비 VPS 환경에서 10~15 tok/s의 쾌적한 속도 확보
Docker와 llama.cpp를 활용한 효율적인 LLM 호스팅 방법 제시
양자화(Q4_K_M vs Q8_0) 및 환경 차이에 따른 성능 변화 분석

자격증 공부나 일상적인 태스크로 인해 충분한 시간과 자금을 확보하기 어려워,

GPU 탑재 PC를 사는 것은 어렵다. 하지만 로컬 LLM을 구동하고 싶다!

그런 상황에서 시작한, LFM2.5를 사용한 CPU 전용 클라우드 LLM 구축 로그입니다.

"로컬 LLM은 PC에서 돌아간다! 심지어 GPU 없이도 가능하다!"

라는 소문을 듣고, 우선 가지고 있는 노트북(GPU 없음)에서

LFM2.5-1.2B-JP (Q4_K_M)를 llama.cpp로 실행해 보았더니…

속도:
3~5 tok/s - Chrome + VSCode를 열면 더욱 느려짐
팬이 풀 가동되어 실용적으로 쓰기에는 어려움

뭐 「오! 돌아간다」라는 감동은 있지만, 실용성 측면에서는 의문 부호가 붙습니다.

아마 Windows 기기이고, CPU가 다른 태스크와 자원을 다투기 때문에 LLM에 리소스를

집중할 수 없는 것이 원인으로 보입니다.

뭐 그럴 수 있죠. 700MB로 로컬 LLM 치고는 가볍지만, 그 사이즈에 빈번하게

액셀을 밟으니까요. 컴퓨터의 SSD 내구도 테스트 같은 것일지도 모릅니다.

그래서 ConoHa VPS (CPU 6코어/메모리 12GB/GPU 없음)에

Docker + llama.cpp로 호스팅해 보았더니…

10~15 tok/s로 향상 - 응답 시작도 거의 순식간이라 쾌적함

"같은 CPU 구동인데 이렇게나 다르다고?!"

라고 할 정도로 눈에 보일 만큼 그 차이는 극명합니다.

이유는 아마도

VPS에서는 LLM이 CPU를 100% 점유할 수 있기 때문일 것입니다. Ubuntu에서 구동되는 것도 효과가 있을지도 모릅니다.

이번에 사용한 모델 LFM2.5를 제공하는 Liquid의

공식 블로그에서는 Ryzen AI 9 HX 370 + Q4_0로

116 tok/s의 벤치마크가 나와 있지만,

VPS에서 실측해 보니 (10~~15 tok/s)와는 8~~10배의 차이가 있습니다.

아마 그 이유는…

공유 vCore (VPS)와 전용 물리 코어 (공식 벤치마크)의 차이 -
네트워크 왕복 + Node.js 처리를 포함한 측정 범위의 차이
Docker의 오버헤드?
양자화 (Quantization) 방식의 차이 (Q4_K_M은 Q4_0보다 무거움)

…등이 생각됩니다.

공식 수치와는 꽤 차이가 나지만, 개인적으로 사용하는 용도로는 충분히 빠르기에 만족스러운 수준입니다.

Q4_K_M (경량)

처리 시간: 1.86초

Microbeats in silence
No GPU, yet minds weave
Silicon dreams take flight.

Q8_0 (고정밀)

처리 시간: 1.66초

Circuits whisper code,
Silent core hums thought unseen,
Light in the void.

이번에 구축한 VPS에 대하여

모두 1대의 VPS 상에서 Docker Compose를 통해 구축했습니다.

llama-q4 : LFM2.5 Q4_K_M (경량·고속)
llama-q8 : LFM2.5 Q8_0 (고정밀·장문용)
server : Node.js / Express (서명 검증·속도 제한)
...

LiquidAI / LFM2.5-1.2B-JP-202606-GGUF (HuggingFace)
LiquidAI / LFM2.5-1.2B-JP-202606-Q8_0.gguf (HuggingFace)

HMAC-SHA256 2단계 API 키 서명 방식

"이것저것 수치를 말해줘도 실제로 보지 않으면 모르겠다!"라고 생각하는 분도 있을 것이기에,

실제로 만져볼 수 있도록 Q4 (경량·고속)와 Q8 (고정밀·장문용)을

브라우저 상에서 전환하며 비교할 수 있는 데모를 만들어 보았습니다.

실제로 만져볼 수 있는 페이지를 만들어 두었습니다

Q4: 가볍고 응답이 빠름. 캐릭터 채팅이나 요약, 단문 번역 등에 적합할 듯.
Q8: 정밀도가 높고, 긴 생성에 적합할 듯.

위 사이트에서 실제 응답 속도나 생성 경향을 그대로 확인할 수 있습니다.

LFM2.5는 가볍다고는 해도, 로컬에서 CPU만으로 돌리는 것은 힘들다.
하지만 CPU 전용 VPS로 넘기는 것만으로 3~~5 tok/s → 10~~15 tok/s로 개선
Docker Compose로 클라우드 LLM을 저렴하게 구축할 수 있다.
Q4/Q8은 꽤 차이가 나지만, 둘 다 VPS에서 가능하다

AI 자동 생성 콘텐츠

원문 바로가기

GPU가 비싸서 '일본어 특화 클라우드 LLM'을 VPS 위에 구축한 이야기 (LFM2.5로 검증)

요약

핵심 포인트

댓글