본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 03:59

주말 동안 Apodex 4b를 사용해 본 후기와 35b mini에 대한 짧은 살펴보기

요약

Apodex 1.0 컬렉션의 소형 모델(4B, 35B mini)에 대한 로컬 구동 테스트 후기입니다. 이 모델들은 검색 에이전트로서 쿼리 계획 및 도구 호출 능력을 갖추도록 설계되었으며, 특히 4B 모델은 체급 대비 낮은 환각률과 뛰어난 다단계 질문 해결 능력을 보여줍니다.

핵심 포인트

  • Apodex 모델은 검색 에이전트(Search Agent)로 작동하도록 특화 설계됨
  • 4B-SFT 모델은 소형임에도 다단계 질문에서 낮은 환각률을 보임
  • 35B mini 모델은 단일 GPU 구동 시 CPU 오프로드가 필요할 정도로 리소스 소모가 큼
  • 정답 생성 주체와 검증 주체를 분리하는 설계 아이디어가 핵심적임

주말 프로젝트 기록입니다. Apodex 컬렉션이 며칠 전 HF (Hugging Face)에 올라왔고, 도대체 왜 이렇게 화제인지 확인하기 위해 작은 모델들을 가져와 보았습니다. 배경 설명을 드리자면, 이것들은 그들의 1.0 출시 때 공개된 오픈 버전들로, 35B-A3B 규모의 mini 모델과 0.8B, 2B, 4B 규모의 smol SFT 라인업입니다. 거대한 397B 모델과 heavy mode는 API 전용이므로, 이것들은 로컬(local)에서 사용할 수 있는 것들입니다. 이번 주말 동안 저는 주로 4B 모델을 사용했으며, 35b mini는 그래픽 카드 한 장으로는 구동하기가 고통스러워서(painful) 짧게만 살펴보았습니다.

이 모델들이 일반적인 소형 모델과 조금 다른 점은 검색 에이전트 (search agent)로 작동하도록 훈련되었다는 것입니다. 즉, 한 번에 대화하는 (one shot chatting) 방식 대신, 쿼리를 계획하고, 도구 (tools)를 호출한 다음, 답변하기 전에 자신의 작업 내용을 스스로 확인합니다. 저는 4B-SFT를 검색 도구가 포함된 저만의 작은 ReAct 하네스 (harness)에 연결하여, 정답이 세 단계 링크 깊숙이 숨겨져 있어 대부분의 소형 모델들이 자신 있게 무언가를 지어내는 (invent) 유형의 다단계 질문 (multi hop questions)들을 던져보았습니다.

제 사양인 3090 환경에서의 대략적인 인상입니다. 4B 모델은 vLLM을 통해 fp16으로 실행했고, 35B mini는 transformers를 통해 실행했습니다. 토큰당 활성화되는 파라미터는 약 3B 정도이지만 디스크 상의 전체 가중치는 여전히 35B이기 때문에 공격적인 CPU 오프로드 (CPU offload)를 사용했습니다. 오프로드를 통해 구동은 가능하지만, 속도가 충분히 느려서 연속적인 질문이 아닌 일회성 질문용으로만 사용하게 됩니다. 4B-SFT는 제가 시도해 본 다른 4B급 모델들에 비해 마지막 단계에서 환각 (hallucination)을 일으키지 않는 능력이 진정으로 뛰어납니다. 공식적인 주장으로는 BrowseComp 및 BrowseComp-ZH에서 모든 오픈 30B급 모델을 능가한다고 하는데, 집에서 전체 벤치마크를 재현할 수는 없었지만 제가 던진 몇 가지 질문들에서는 확실히 체급 이상의 성능을 보여주었습니다. 일상적인 로컬 작업용으로는 vLLM에서 돌아가는 4B 모델을 실제로 더 자주 찾게 되며, mini 모델은 카드 한 장으로는 과합니다. 한 가지 불편한 점은 제가 찾을 수 있는 공식적인 gguf 파일이 없다는 것입니다. 그래서 0.8B와 2B는 llama.cpp용으로 직접 변환했고, 4B는 그냥 vLLM에서 사용하고 있습니다. 혹시 누군가 35b mini의 깔끔한 양자화 (quant) 버전을 가지고 있다면 공유 부탁드립니다.

제가 흥미롭다고 느끼는 부분은 점수 자체보다는 설계 아이디어, 즉 정답을 확인하는 주체가 정답을 생성한 것과 동일한 컨텍스트 (context)여서는 안 된다는 점입니다. Apodex는 최근 이러한 방식을 추진하고 있는 몇 안 되는 그룹 중 하나이며, 단일 그래픽 카드에서 실행할 수 있을 만큼 작은 모델에서 이를 확인하게 되어 반갑습니다. 직접 테스트해보고 싶다면 가중치 (weights)는 apodex/apodex-1 컬렉션에 있습니다. 더 큰 모델의 GGUF 변환 (conversion) 과정에서 발생하는 저주 같은 문제들이 해결되면 다시 보고하겠습니다.
제출자: /u/Independent_Plum_489
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0