
추론을 포기한 230M LFM2.5, 스마트폰 CPU에서 초당 213토큰 출력
요약
Liquid AI가 출시한 LFM2.5-230M은 추론 능력을 제한하는 대신 초경량 구조를 통해 에지 디바이스에서의 빠른 속도에 집중한 모델입니다. 합성곱(Convolution)과 Attention을 결합한 하이브리드 구조를 통해 스마트폰 CPU에서도 초당 200토큰 이상의 빠른 출력을 구현했습니다.
핵심 포인트
- 230M 파라미터의 초소형 모델로 데이터 추출 및 도구 호출에 특화
- 합성곱 블록을 활용해 Attention의 연산 부담을 줄인 하이브리드 구조
- 스마트폰 CPU 환경에서 초당 213토큰의 압도적인 디코딩 속도 달성
- Qwen, Gemma 등 더 큰 규모의 모델보다 지시 추종 성능 우위
모델이 클수록 똑똑하다는 전제하에 지난 몇 년간의 경쟁이 움직여 왔다. 그렇기에 Liquid AI가 6월 하순에 출시한 최소 모델 LFM2.5-230M의 모델 카드(Model Card)에 적힌 한 문장은 역발상처럼 보인다.
고급 수학, 코드 생성, 창작과 같이 추론 부하가 높은 용도에는 권장하지 않음
230M(2억 3,000만) 파라미터. 요즘의 플래그십 모델들이 수백 B(수천억)를 당연하게 탑재하는 상황에서, 그 1,000분의 1 이하 수준이다. 게다가 제조사 스스로가 "어려운 일은 시키지 마라"라고 말한다. 그렇다면 이 모델은 무엇을 위한 모델인가. 이 지점을 파악하면 소형 모델의 활용처가 작년까지와는 달라져 있다는 것을 알 수 있다.
LFM2.5-230M이 노리는 것은 클라우드로 보내지 않고 디바이스 상에서만 완결되는 에이전트(Agent) 처리다. 구체적으로는 자연어 지시를 받아 구조화된 데이터를 추출하는 데이터 추출(Data Extraction), 혹은 지시를 도구 호출(Tool Calling)의 열로 분해하는 것과 같은 경량 태스크에 집중하고 있다.
실측값이 이러한 설계 사상을 뒷받침한다. 4bit 양자화(Quantization)·2K 컨텍스트에서의 측정 결과, CPU만으로 이 정도 수치가 나온다.
| 디바이스 | 메모리 | 프리필(Prefill) | 디코딩(Decode) |
|---|---|---|---|
| Raspberry Pi 5 | 293 MB | 523 tok/s | 42 tok/s |
| Galaxy S25 Ultra (Snapdragon Gen4) | 375 MB | 1,158 tok/s | 213 tok/s |
수백 MB 수준으로 수렴하며, Raspberry Pi에서도 동작한다. 스마트폰의 CPU(GPU나 NPU가 아닌)에서 초당 200토큰을 넘는다는 것은, 체감상 사람이 읽는 것보다 빠르게 문장이 흘러가는 속도다. GPU를 갖추지 않은 기기에서 상시 구동되는 어시스턴트를 돌릴 수 있는 수준에 도달했다는 것이 이 숫자의 의미다.
왜 이렇게 가볍고 빠른가. 내부 구조는 14개 층으로 구성되어 있으며, 그중 8개 층은 double-gated LIV convolution 블록, 나머지 6개 층은 grouped-query attention (GQA) 블록으로 이루어져 있다(모델 카드 기재). 전부를 주의 집중 메커니즘(Attention)에 할당하지 않고, 시퀀스 방향 처리의 대부분을 합성곱(Convolution) 계열 블록에 맡기는 하이브리드 구성이다. Attention은 시퀀스 길이에 대해 계산량과 메모리가 제곱으로 늘어나는 것이 약점인데, 그 부분을 합성곱으로 대신하게 함으로써 긴 입력에서도 메모리와 속도가 무너지지 않도록 했다. 에지(Edge)용으로 이 형태를 선택한 것은 합리적이다.
Liquid AI는 데이터 추출과 같은 특정 태스크에서 자기보다 4배 큰 규모의 모델을 능가한다고 주장한다. 비교 대상은 Alibaba의 Qwen3.5-0.8B(8억)와 Google의 Gemma 3 1B(10억)다. 공식 블로그의 벤치마크 표에서 추출하면 다음과 같다.
| 벤치마크 | LFM2.5-230M | Qwen3.5-0.8B | Gemma 3 1B |
|---|---|---|---|
| IFEval(지시 추종) | 71.71 | 59.94 | 63.49 |
| ... |
주목해야 할 점은 표의 내역이다. 지시 추종(IFEval)이나 함수 호출(BFCLv4)에서는 크기 면에서 앞서는 모델들을 명확히 앞지르는 반면, 이공계 난제를 묻는 GPQA Diamond에서는 0.8B 규모의 Qwen에 근소하게 뒤처진다. 즉, 이 모델은 모든 방면에서 승리하는 것이 아니라, "지시를 정확히 받아 도구를 호출하는" 능력에 예산을 집중 투입하고 지식 추론은 과감히 버린 것이다. 서두의 "추론 용도에는 권장하지 않는다"라는 단서 조항은 성능에 대한 변명이 아니라 설계상의 결단이라고 읽는 것이 옳다.
에이전트의 부품으로서의 실체를 보여주는 것이 Unitree의 휴머노이드 로봇 G1에 탑재한 데모다. 온보드 NVIDIA Jetson Orin 상에서 LFM2.5-230M을 구동하여, 하나의 자연어 지시를 NVIDIA의 SONIC 프레임워크가 가진 학습된 저수준 동작(걷기나 한쪽 무릎 세우기 등)의 호출 열로 분해시킨다. 모델 본체는 동작을 생성하지 않고, 어디까지나 "어떤 스킬을 어떤 순서로 호출할지"를 결정하는 스킬 선택 레이어(Skill Selection Layer) 역할에 충실한다. 230M이 담당하는 것은 그것만으로 충분하다는 결단이, 로봇이라는 맥락에서 오히려 이해하기 쉽다.
학습 토큰은 19조 개, 컨텍스트 길이는 32,768, 어휘(Vocabulary)는 65,536개, 대응 언어는 일본어를 포함한 10개 언어이며, 지식 컷오프(Knowledge Cutoff)는 2024년 중반이다. 라이선스는 LFM1.0의 오픈 웨이트(Open Weight)이며, Hugging Face에서 가중치를 직접 내려받을 수 있다. Transformers라면 5.0.0 이후 버전에서 읽을 수 있다.
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("LiquidAI/LFM2.5-230M")
tokenizer = AutoTokenizer.from_pretrained("LiquidAI/LFM2.5-230M")
채팅 템플릿(Chat template)은 <|im_start|> / <|im_end|>를 사용하는 ChatML 계열이다. 생성 시에는 temperature 0.1, top_k 50, repetition penalty 1.05가 권장되는 값이다. 추출(Extraction)이나 도구 호출(Tool calling)이 주된 목적이므로, 온도를 낮게 고정하여 변동성을 억제하도록 설정되어 있다.
스마트폰이나 Raspberry Pi에서 구동하려면 양자화(Quantization)된 LFM2.5-230M-GGUF를 llama.cpp에 입력하는 것이 빠르다. 그 외에도 MLX(Apple Silicon), vLLM, SGLang, ONNX에 출시 첫날부터 대응하고 있어, 엣지(Edge)부터 GPU 서버까지 동일한 가중치를 가지고 이동하며 사용할 수 있다는 점은 실무에서 은근히 강력한 장점이 된다.
이 230M 모델을 범용 채팅의 대체재로 측정한다면 실망스러울 것이다. 수학도 코드도 작성할 수 없다. 하지만 관점을 바꾸면, "추출이나 라우팅(Routing) 같은 정형화된 처리 과정에서 클라우드 왕복 레이턴시(Latency), 통신 비용, 그리고 프라이버시 문제를 통째로 제거하기 위한" 부품으로서 이는 상당히 실용적인 선택지다. 거대 모델에 무엇이든 던지려는 발상의 이면에는, 정해진 업무를 단말기 내에서 완결하여 빠르고 저렴하게 돌리려는 계층이 확실히 형성되고 있다. 그 최전선이 마침내 수백 MB 단위까지 내려왔다는 것이 이번 소식의 가장 큰 의미라고 생각한다.
1차 소스는 다음과 같다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기