저사양 PC(Intel i5, GPU 없음)에서 5개의 소형 LLM을 테스트하고 승자를 찾아낸 방법

저가형 하드웨어에서 LLM을 실행하기 위한 실질적인 가이드: 실제 속도, 실제 사례, 그리고 실제 결론

📌 목차

나의 설정 (소위 "저사양" PC)
이 테스트를 수행한 이유
테스트한 5가지 모델
테스트 방법
모델 1: LFM2.5-350M – 속도의 악마
모델 2: Qwen3 0.6B – 균형 잡힌 모델
모델 3: LFM2.5-1.2B-Instruct – 올라운더
모델 4: Gemma-3-1B-Uncensored – 코미디언
모델 5: DeepSeek-R1-Distill-Qwen-1.5B – 부적응자
최종 비교 표
주요 교훈
나의 최종 추천
결론
최종 노트

나의 설정 (소위 "저사양" PC)

본격적인 시작에 앞서, 제가 어떤 환경에서 작업했는지 보여드리겠습니다. GPU 없음. 하이엔드 하드웨어 없음. 그저 일반적인 사무용 PC입니다:

구성 요소	사양
CPU	Intel Core i5-10400 @ 2.90GHz (6 cores)
...
주요 제한 사항: 싱글 채널 RAM으로 인해 약 20 GB/s의 메모리 대역폭 병목 현상이 발생합니다. 이것이 속도가 더 이상 올라가지 못하는 실제 이유입니다.

이 테스트를 수행한 이유

대부분의 LLM 벤치마크와 리뷰는 다음과 같은 환경을 가정합니다:

하이엔드 NVIDIA GPU (RTX 3060+)
또는 최소한 Apple Silicon이 탑재된 Mac
또는 32GB 이상의 VRAM을 가진 서버

하지만 만약 당신에게 이 중 어느 것도 없다면 어떻게 될까요? 예산이 부족한 개발자, 학생, 또는 오래된 PC를 사용하는 사람이라면 어떨까요?

저는 저와 같은 하드웨어에서 실제로 잘 작동하는 최고의 소형 LLM (2B 파라미터 미만)을 찾고 싶었습니다. 이론이 아닌 실제 테스트, 실제 속도, 실제 사례를 통해서 말이죠.

그리고 네, 창의성, 일관성, 그리고 유머 감각을 테스트하기 위해 각 모델에게 재미있는 고양이 이야기를 쓰게 했습니다.

테스트한 5가지 모델

#	모델	크기	형식
1	LFM2.5-350M	350M	GGUF (Q4_K_M)
...

테스트 방법

각 모델에 대해 다음을 수행했습니다:

LM Studio에서 모델 로드
내 하드웨어에서의 실제 초당 토큰 수 (token-per-second) 속도 측정
500단어 분량의 재미있는 고양이 이야기 요청 (모든 모델에 동일한 프롬프트 사용)
일관성, 유머, 독창성 및 구조를 평가

모델 1: LFM2.5-350M – 속도의 악마

속도: 36 tokens/second

이 모델은 단연코 가장 빠른 모델이었습니다. 응답이 거의 즉각적으로 나타났습니다.

고양이 이야기 발췌:

"고양이 Milo는 Milo의 작고 까다로운 집에 살았습니다. 어느 화창한 오후, 그는 커피를 마시러 주방에 몰래 들어가려 했지만, Sammy라는 이름의 호기심 많은 다람쥐에게 들리고 말았습니다..."

분석:

측면	점수	비고
일관성 (Coherence)	7/10	대체로 논리적이지만, 이름이 혼란스러움 ("Milo" = 고양이이자 동시에 주인)
...
판결 (Verdict): 요약 및 빠른 작업에 완벽함. 창의적인 글쓰기에는 이상적이지 않음.

모델 2: Qwen3 0.6B – 균형 잡힌 모델

속도: ~20 tokens/second

안정적인 속도입니다. 350M 모델보다는 눈에 띄게 느려졌지만, 여전히 매우 반응이 빠릅니다.

고양이 이야기 발췌:

"Whiskers는 평범한 고양이가 아니었습니다. 그는 '가르릉' 소리를 내기도 전에 퍼즐을 풀어버리는 재주가 있었습니다..."

분석:

측면	점수	비고
일관성 (Coherence)	7/10	괜찮은 구조, 큰 혼란 없음
...
판결 (Verdict): 탄탄한 범용 모델입니다. 특별할 것은 없지만, 결함도 없습니다.

모델 3: LFM2.5-1.2B-Instruct – 올라운더 (The All-Rounder)

속도: 13.5 tokens/second

"괜찮은" 모델들 중에서는 가장 느렸지만, 품질의 도약은 그만한 가치가 있었습니다.

고양이 이야기 발췌:

"옛날 옛적, Pawsville라는 이름의 독특하고 작은 마을에 Whiskers라는 이름의 솜털이 보송보송한 회색 줄무늬 고양이가 살았습니다. Whiskers는 평범한 고양이가 아니었습니다. 그는 '가르릉' 소리를 내기도 전에 퍼즐을 풀어버리는 재주가 있었습니다... 이 마법 같은 영역에서 동물들은 말하는 동물들이었습니다. 작은 안경을 쓴 강아지, 작은 모자를 쓴 새, 심지어 외눈 안경을 쓴 현명하고 나이 많은 올빼미까지..."

분석:

측면	점수	비고
일관성 (Coherence)	9/10	처음부터 끝까지 뛰어난 구조
...
좋은 유머의 예시:

"그는 반짝이는 조개껍데기로 가득 찬 보물 상자를 계속 지키고 있는 Timmy라는 이름의 심술궂은 늙은 거북이를 만났습니다. 그 거북이는 너무 고집스러워서, Whiskers를 들여보내 주지 않고 몇 시간 동안 빤히 쳐다보곤 했습니다."

결론 (Verdict): CPU 전용 시스템을 위한 **최고의 올라운드 모델 (best all-around model)**입니다. 채팅, 스토리 작성, 요약 및 일상적인 작업에 사용하세요.

모델 4: Gemma-3-1B-Uncensored – 코미디언

속도: 10 tokens/second

가장 느리지만, 독특한 개성을 가지고 있습니다.

흥미로운 동작: 모델이 응답하기 전에 1분 27초 동안 "생각(thought)"했습니다. 이는 검열되지 않은 (uncensored) 특성상 여러 응답 후보를 탐색했기 때문일 가능성이 높습니다.

고양이 이야기 발췌:

"Mittens는 두 눈을 질끈 감고 구멍 속으로 뛰어들었습니다. 그녀는 어두운 경사면을 따라 굴러떨어져, 나중에 먹으려고 소파 뒤에 숨겨두었던 오래된 잡지 더미와 캣닙(catnip) 봉지 위로 떨어졌습니다... 주인은 그저 웃으며 고개를 저으며 말했습니다: '이래서 내 노트북을 열어두고 다니는 거야.'"

분석:

측면 (Aspect)	점수 (Score)	비고 (Notes)
일관성 (Coherence)	7/10	약간 혼란스럽지만 재미있음
...
결론 (Verdict): 색다른 유머를 원한다면 개인적인 오락용 (personal entertainment)으로 훌륭합니다. 일상적인 용도로 쓰기에는 너무 느립니다.

모델 5: DeepSeek-R1-Distill-Qwen-1.5B – 부적응자

속도: 10.4 tokens/second

응답하기 전에 **33초 동안 생각(Thought)**했습니다. 이 모델은 스토리텔링이 아닌 수학과 논리를 위해 설계된 "추론 모델 (reasoning model)"입니다.

고양이 이야기 발췌:

"어라! 이웃집 사는 Squidward가 외쳤습니다... 어라, 그가 다시 말했습니다... 어라, Whiskers가 다시 말했습니다... 어라, Whiskers가 한 번 더 말했습니다..."

분석:

측면 (Aspect)	점수 (Score)	비고 (Notes)
일관성 (Coherence)	3/10	극도로 반복적이며, 캐릭터들이 무작위로 나타났다 사라짐
...
결론 (Verdict): 창의적인 글쓰기에는 사용하지 마세요. 이 모델은 수학, 논리, 그리고 단계별 추론 (step-by-step reasoning)을 위한 것입니다. 제가 용도를 잘못 사용했고, 결과가 그 이유를 보여줍니다.

최종 비교표

순위 (Rank)	모델 (Model)	속도 (t/s)	일관성 (Coherence)	유머 (Humor)	최적 용도 (Best For)
🥇	LFM2.5-1.2B-Instruct	13.5	9/10	8/10	모든 것 (채팅, 스토리, 요약)
...

핵심 교훈 (Key Lessons Learned)

1. 속도 ≠ 품질

350M 모델은 1.2B Instruct 모델보다 3배 더 빨랐지만, 스토리 품질은 눈에 띄게 낮았습니다.

2. 파라미터 수보다 아키텍처(Architecture)가 더 중요하다

LFM2.5-350M (350M 파라미터)은 여러 벤치마크에서 Qwen3 0.6B (600M 파라미터)보다 뛰어난 성능을 보였습니다.

3. 창의적인 작업에는 추론 모델(Reasoning Models)을 사용하지 마세요

DeepSeek-R1은 수학에는 놀라운 성능을 보이지만, 반복적이고 일관성 없는 스토리를 생성합니다. 적절한 작업에는 적절한 도구를 사용하세요.

4. 성능이 낮은 CPU에서는 1~1.5B 모델이 최적의 지점(Sweet Spot)입니다

제 하드웨어에서 1.5B보다 큰 모델은 10 t/s 미만으로 속도가 떨어집니다. 1B보다 작은 모델은 품질을 너무 많이 희생합니다.

5. 액체 모델(Liquid Models, LFM2.5)은 CPU에 최적화되어 있습니다

LFM2.5는 제 Intel i5 환경에서 속도와 품질 모두에서 경쟁 모델들을 지속적으로 압도했습니다.

최종 추천 (My Final Recommendation)

단 하나의 모델만 설치해야 한다면:

👉 LFM2.5-1.2B-Instruct 👈

13.5 tokens/second (초당 토큰 수)
채팅, 스토리, 요약 및 지시 이행(Instruction following)에 탁월함
속도와 품질의 최적의 균형

두 개의 모델을 원한다면:

주력 모델: LFM2.5-1.2B-Instruct (일상적인 작업용)
빠른 백업용: LFM2.5-350M (빠른 요약용)

속도가 유일한 우선순위라면:

LFM2.5-350M (36 t/s)

엔터테인먼트를 위한 성인향 유머를 원한다면:

Gemma-3-1B-Uncensored (단, 10 t/s 정도의 속도를 예상해야 함)

결론 (Conclusion)

LLM을 로컬에서 실행하기 위해 2,000달러짜리 GPU가 필요한 것은 아닙니다.

평범한 Intel i5, 16GB RAM, 그리고 그래픽 카드 없이도 LFM2.5-1.2B-Instruct를 초당 약 13토큰의 속도로 실행할 수 있으며, 다음과 같은 작업에서 진정으로 유용한 결과를 얻을 수 있습니다:

일상적인 채팅 보조
창의적 글쓰기 (외눈 안경을 쓴 고양이 이야기 같은 것들!)
문서 요약
개인용 AI 에이전트

모델들은 점점 더 작아지고, 빨라지며, 똑똑해지고 있습니다. LFM2.5는 1.2B 파라미터만으로도 더 큰 모델에 필적하는 품질을 제공할 수 있음을 증명합니다.

직접 시도해 보세요. LM Studio를 다운로드하고, LFM2.5-1.2B-Instruct GGUF 파일을 받아서 실험을 시작해 보세요.

최종 참고 사항 (Final Note)

제가 수행한 테스트는 특정 하드웨어 설정에서 재미있는 고양이 이야기를 생성하는 하나의 단순한 시나리오에 집중되었습니다. 이를 통해 다섯 가지 모델에 대해 명확하고 비교 가능한 결과를 얻을 수 있었지만, LLM의 성능은 작업(Task)에 따라 크게 달라질 수 있다는 점을 기억하는 것이 중요합니다. 괜찮은 이야기를 쓰는 모델이라도 코드 생성 (Code Generation), 수학적 추론 (Mathematical Reasoning), 또는 멀티턴 대화 (Multi-turn Conversations)에서는 어려움을 겪을 수 있습니다. 마찬가지로 여러분의 하드웨어, 소프트웨어 버전, 양자화 (Quantization) 설정, 심지어 달의 위상(좋습니다, 마지막 것은 농담입니다)조차 속도와 출력 품질에 영향을 미칠 수 있습니다. 따라서 제 결과는 보편적인 진리가 아닌 유용한 데이터 포인트로 받아들여 주시기 바랍니다. 결정을 내리기 전에 여러분의 워크로드 (Workload)에서 직접 모델을 테스트해 볼 수도 있습니다.

저사양 PC(Intel i5, GPU 없음)에서 5개의 소형 LLM을 테스트하고 승자를 찾아낸 방법

요약

핵심 포인트

📌 목차

나의 설정 (소위 "저사양" PC)

이 테스트를 수행한 이유

테스트한 5가지 모델

테스트 방법

모델 1: LFM2.5-350M – 속도의 악마

속도: 36 tokens/second

고양이 이야기 발췌:

분석:

모델 2: Qwen3 0.6B – 균형 잡힌 모델

속도: ~20 tokens/second

고양이 이야기 발췌:

분석:

모델 3: LFM2.5-1.2B-Instruct – 올라운더 (The All-Rounder)

속도: 13.5 tokens/second

고양이 이야기 발췌:

분석:

모델 4: Gemma-3-1B-Uncensored – 코미디언

속도: 10 tokens/second

고양이 이야기 발췌:

분석:

모델 5: DeepSeek-R1-Distill-Qwen-1.5B – 부적응자

속도: 10.4 tokens/second

고양이 이야기 발췌:

분석:

최종 비교표

핵심 교훈 (Key Lessons Learned)

1. 속도 ≠ 품질

2. 파라미터 수보다 아키텍처(Architecture)가 더 중요하다

3. 창의적인 작업에는 추론 모델(Reasoning Models)을 사용하지 마세요

4. 성능이 낮은 CPU에서는 1~1.5B 모델이 최적의 지점(Sweet Spot)입니다

5. 액체 모델(Liquid Models, LFM2.5)은 CPU에 최적화되어 있습니다

최종 추천 (My Final Recommendation)

단 하나의 모델만 설치해야 한다면:

두 개의 모델을 원한다면:

속도가 유일한 우선순위라면:

엔터테인먼트를 위한 성인향 유머를 원한다면:

결론 (Conclusion)

최종 참고 사항 (Final Note)

🔗 리소스 (Resources)

댓글