추론을 포기한 230M LFM2.5, 스마트폰 CPU에서 초당 213토큰 출력

모델이 클수록 똑똑하다는 전제하에 지난 몇 년간의 경쟁이 움직여 왔다. 그렇기에 Liquid AI가 6월 하순에 출시한 최소 모델 LFM2.5-230M의 모델 카드(Model Card)에 적힌 한 문장은 역발상처럼 보인다.

고급 수학, 코드 생성, 창작과 같이 추론 부하가 높은 용도에는 권장하지 않음

230M(2억 3,000만) 파라미터. 요즘의 플래그십 모델들이 수백 B(수천억)를 당연하게 탑재하는 상황에서, 그 1,000분의 1 이하 수준이다. 게다가 제조사 스스로가 "어려운 일은 시키지 마라"라고 말한다. 그렇다면 이 모델은 무엇을 위한 모델인가. 이 지점을 파악하면 소형 모델의 활용처가 작년까지와는 달라져 있다는 것을 알 수 있다.

LFM2.5-230M이 노리는 것은 클라우드로 보내지 않고 디바이스 상에서만 완결되는 에이전트(Agent) 처리다. 구체적으로는 자연어 지시를 받아 구조화된 데이터를 추출하는 데이터 추출(Data Extraction), 혹은 지시를 도구 호출(Tool Calling)의 열로 분해하는 것과 같은 경량 태스크에 집중하고 있다.

실측값이 이러한 설계 사상을 뒷받침한다. 4bit 양자화(Quantization)·2K 컨텍스트에서의 측정 결과, CPU만으로 이 정도 수치가 나온다.

디바이스	메모리	프리필(Prefill)	디코딩(Decode)
Raspberry Pi 5	293 MB	523 tok/s	42 tok/s
Galaxy S25 Ultra (Snapdragon Gen4)	375 MB	1,158 tok/s	213 tok/s

수백 MB 수준으로 수렴하며, Raspberry Pi에서도 동작한다. 스마트폰의 CPU(GPU나 NPU가 아닌)에서 초당 200토큰을 넘는다는 것은, 체감상 사람이 읽는 것보다 빠르게 문장이 흘러가는 속도다. GPU를 갖추지 않은 기기에서 상시 구동되는 어시스턴트를 돌릴 수 있는 수준에 도달했다는 것이 이 숫자의 의미다.

왜 이렇게 가볍고 빠른가. 내부 구조는 14개 층으로 구성되어 있으며, 그중 8개 층은 double-gated LIV convolution 블록, 나머지 6개 층은 grouped-query attention (GQA) 블록으로 이루어져 있다(모델 카드 기재). 전부를 주의 집중 메커니즘(Attention)에 할당하지 않고, 시퀀스 방향 처리의 대부분을 합성곱(Convolution) 계열 블록에 맡기는 하이브리드 구성이다. Attention은 시퀀스 길이에 대해 계산량과 메모리가 제곱으로 늘어나는 것이 약점인데, 그 부분을 합성곱으로 대신하게 함으로써 긴 입력에서도 메모리와 속도가 무너지지 않도록 했다. 에지(Edge)용으로 이 형태를 선택한 것은 합리적이다.

Liquid AI는 데이터 추출과 같은 특정 태스크에서 자기보다 4배 큰 규모의 모델을 능가한다고 주장한다. 비교 대상은 Alibaba의 Qwen3.5-0.8B(8억)와 Google의 Gemma 3 1B(10억)다. 공식 블로그의 벤치마크 표에서 추출하면 다음과 같다.

벤치마크	LFM2.5-230M	Qwen3.5-0.8B	Gemma 3 1B
IFEval(지시 추종)	71.71	59.94	63.49
...

주목해야 할 점은 표의 내역이다. 지시 추종(IFEval)이나 함수 호출(BFCLv4)에서는 크기 면에서 앞서는 모델들을 명확히 앞지르는 반면, 이공계 난제를 묻는 GPQA Diamond에서는 0.8B 규모의 Qwen에 근소하게 뒤처진다. 즉, 이 모델은 모든 방면에서 승리하는 것이 아니라, "지시를 정확히 받아 도구를 호출하는" 능력에 예산을 집중 투입하고 지식 추론은 과감히 버린 것이다. 서두의 "추론 용도에는 권장하지 않는다"라는 단서 조항은 성능에 대한 변명이 아니라 설계상의 결단이라고 읽는 것이 옳다.

에이전트의 부품으로서의 실체를 보여주는 것이 Unitree의 휴머노이드 로봇 G1에 탑재한 데모다. 온보드 NVIDIA Jetson Orin 상에서 LFM2.5-230M을 구동하여, 하나의 자연어 지시를 NVIDIA의 SONIC 프레임워크가 가진 학습된 저수준 동작(걷기나 한쪽 무릎 세우기 등)의 호출 열로 분해시킨다. 모델 본체는 동작을 생성하지 않고, 어디까지나 "어떤 스킬을 어떤 순서로 호출할지"를 결정하는 스킬 선택 레이어(Skill Selection Layer) 역할에 충실한다. 230M이 담당하는 것은 그것만으로 충분하다는 결단이, 로봇이라는 맥락에서 오히려 이해하기 쉽다.

학습 토큰은 19조 개, 컨텍스트 길이는 32,768, 어휘(Vocabulary)는 65,536개, 대응 언어는 일본어를 포함한 10개 언어이며, 지식 컷오프(Knowledge Cutoff)는 2024년 중반이다. 라이선스는 LFM1.0의 오픈 웨이트(Open Weight)이며, Hugging Face에서 가중치를 직접 내려받을 수 있다. Transformers라면 5.0.0 이후 버전에서 읽을 수 있다.

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("LiquidAI/LFM2.5-230M")
tokenizer = AutoTokenizer.from_pretrained("LiquidAI/LFM2.5-230M")

채팅 템플릿(Chat template)은 <|im_start|> / <|im_end|>를 사용하는 ChatML 계열이다. 생성 시에는 temperature 0.1, top_k 50, repetition penalty 1.05가 권장되는 값이다. 추출(Extraction)이나 도구 호출(Tool calling)이 주된 목적이므로, 온도를 낮게 고정하여 변동성을 억제하도록 설정되어 있다.

스마트폰이나 Raspberry Pi에서 구동하려면 양자화(Quantization)된 LFM2.5-230M-GGUF를 llama.cpp에 입력하는 것이 빠르다. 그 외에도 MLX(Apple Silicon), vLLM, SGLang, ONNX에 출시 첫날부터 대응하고 있어, 엣지(Edge)부터 GPU 서버까지 동일한 가중치를 가지고 이동하며 사용할 수 있다는 점은 실무에서 은근히 강력한 장점이 된다.

이 230M 모델을 범용 채팅의 대체재로 측정한다면 실망스러울 것이다. 수학도 코드도 작성할 수 없다. 하지만 관점을 바꾸면, "추출이나 라우팅(Routing) 같은 정형화된 처리 과정에서 클라우드 왕복 레이턴시(Latency), 통신 비용, 그리고 프라이버시 문제를 통째로 제거하기 위한" 부품으로서 이는 상당히 실용적인 선택지다. 거대 모델에 무엇이든 던지려는 발상의 이면에는, 정해진 업무를 단말기 내에서 완결하여 빠르고 저렴하게 돌리려는 계층이 확실히 형성되고 있다. 그 최전선이 마침내 수백 MB 단위까지 내려왔다는 것이 이번 소식의 가장 큰 의미라고 생각한다.

1차 소스는 다음과 같다.

Insights

추론을 포기한 230M LFM2.5, 스마트폰 CPU에서 초당 213토큰 출력

요약

핵심 포인트

댓글

AI 에이전트 환각 (Hallucination): 왜 탐지만으로는 프로덕션 시스템을 보호할 수 없는가

왜 데이터베이스가 AI 에이전트의 실제 병목 현상인가

교육을 위한 멀티 에이전트 아키텍처 (The Multi-Agent Architecture for Education)

llms.txt를 활용한 에이전트(Agents) 최적화

왜 데이터베이스가 AI 에이전트의 실제 병목 현상인가

교육을 위한 멀티 에이전트 아키텍처 (The Multi-Agent Architecture for Education)

llms.txt를 활용한 에이전트(Agents) 최적화