
Claude Fable 5를 9B 모델로 증류? 100만 토큰의 초장문 추론 모델 「Qwythos-9B」를 4GB VRAM에서 구동하기
요약
Claude Fable 5의 사고 프로세스를 증류한 9B 규모의 오픈 웨이트 추론 모델 Qwythos-9B가 공개되었습니다. 100만 토큰의 초장문 컨텍스트를 지원하며, 4GB VRAM 환경에서도 구동 가능한 경량화된 로컬 AI 모델입니다.
핵심 포인트
- Claude Fable 5의 CoT 데이터를 활용한 고성능 추론 능력 재현
- YaRN 기술을 통한 최대 100만 토큰의 초장문 컨텍스트 지원
- 4GB VRAM에서도 구동 가능한 높은 효율성과 최적화
- 로컬 AI 에이전트 개발에 적합한 Function Calling 및 자기 디버깅 능력
오픈 소스 AI(로컬 LLM)의 진화 속도는 눈부실 정도입니다. 2026년 6월, Empero AI로부터 「Qwythos-9B-Claude-Mythos-5-1M」(이하 Qwythos-9B)라는 새로운 오픈 웨이트(Open-weight) 추론 모델이 발표되어 로컬 AI 커뮤니티에서 큰 화제가 되고 있습니다.
본 모델의 최대 특징은 클로즈드 소스(Closed-source)의 최고봉인 「Claude Fable 5 (Fable 5)」나 「Claude Mythos 5」의 고도화된 사고 프로세스를 90억 파라미터(9B)라는 경량 모델로 증류(Distillation)했다는 점입니다. 또한, 100만 토큰이라는 초장문 컨텍스트(Context)에 대응하며, 양자화 모델(GGUF)을 사용하면 4GB 정도의 소비자용 VRAM에서도 쾌적하게 동작합니다.
본 기사에서는 Qwythos-9B와 Fable 5의 관계성, 로컬 환경으로의 설치 절차, 그리고 실기 테스트 결과와 운용 시 주의점에 대해 자세히 해설합니다.
Qwythos-9B는 Alibaba의 강력한 오픈 소스 모델인 「Qwen3.5-9B」를 베이스(Base)로 하며, Empero AI에 의해 포스트 트레이닝(Post-training, 풀 파라미터 후 훈련)이 수행된 모델입니다.
최대 특징은 그 트레이닝 데이터에 있습니다.
5억 토큰 이상의 고품질 사고 궤적:
클로즈드 소스 최고봉 추론 모델인 Claude Fable 5나 Claude Mythos 5가 생성한 「사고의 연쇄(Chain of Thought: CoT)」를 포함하는 5억 토큰 이상의 대화 데이터를 학습시켰습니다.
인하우스 툴 「rethink」를 통한 데이터 합성:
Empero AI의 자체 데이터 합성 시스템인 「rethink」를 사용하여, Claude 특유의 「논리적으로 사고하고 자기 수정하는 프로세스」나 「인간미 있고 따뜻한 크리에이티브 라이팅(Creative Writing) 문체」를 시뮬레이션 및 보강한 학습용 트레이스(Trace)를 구축했습니다.
이를 통해 경량인 9B 사이즈임에도 불구하고, 「Claude가 어떻게 생각하고, 어떻게 추론하며, 어떻게 자기 수정하는가」라는 고정밀 뇌의 흔적(사고의 습성)을 로컬 환경에서 재현하는 데 성공했습니다.
「YaRN (Yet another RoPE extensioN)」 기술을 채택함으로써, 네이티브로 최대 1,048,576 토큰(약 100만 토큰)의 초장문 컨텍스트 윈도우(Context Window)를 지원합니다. 이를 통해 다음과 같은 로컬 태스크가 현실적으로 가능해집니다.
- 거대한 소스 코드 리포지토리를 통째로 읽혀서 수행하는 버그 수정 및 리팩터링(Refactoring)
- 여러 편의 학술 논문이나 수만 페이지의 기술 문서에 대한 횡단 분석 및 대화
공식 모델 공개 후, 로컬 AI 커뮤니티의 유지(Richard Young 씨 등)에 의해 모델의 과도한 안전 필터(Safety Filter)를 완화한 「Abliterated (아브리테레이티드)」 버전이 제작되었습니다.
사이버 보안, 의학, 약학, 생화학 같은 고도의 민감한 기술 검증을 수행할 때, AI 특유의 「훈계」나 「답변 거부」를 하지 않고, Claude 특유의 뛰어난 지성을 유지한 채 정직하게 답변을 출력해 줍니다.
Function Calling(외부 API·함수 실행)이나 Python 실행 환경과 연계된 자기 코드 수정 능력이 처음부터 내장되어 있습니다. 자율적으로 코드를 작성하고 테스트하며, 에러가 발생하면 추론 프로세스 내에서 자기 디버깅을 수행하는 「로컬 AI 에이전트」 개발에 매우 적합합니다.
Qwythos-9B는 개인용 PC(소비자용 GPU)에서 동작하도록 최적화되어 있습니다.
이미 Ollama가 도입된 환경이라면, 터미널에서 다음 명령어를 실행하는 것만으로 커뮤니티 권장 「Abliterated 버전」을 다운로드하여 기동할 수 있습니다.
# Abliterated 버전(거부 반응을 완화한 버전) 기동
ollama run richardyoung/qwythos-9b-abliterated
※ 안전 필터가 불필요하며 더 전문적인 용도로 사용하고 싶은 경우에는 언센서드(Uncensored) 버전도 공개되어 있습니다.
# 언센서드 버전 기동
ollama run mikemikeok/Qwythos-9B-Uncensored
Ollama를 사용하지 않고 더 상세한 커스터마이징을 하고 싶은 경우에는 GGUF 형식의 양자화(Quantization) 모델을 직접 다운로드하여 전개합니다.
GGUF 버전은 자신의 GPU에 탑재된 VRAM 용량에 맞춰 다운로드할 파일을 선택합니다. 다음은 VRAM 용량별 권장 양자화(Quantization) 레벨의 대응 관계입니다.
| 탑재 VRAM 용량 | 권장 GGUF 양자화 레벨 | 특징 및 장점 |
|---|---|---|
| 4GB (최소 동작 환경) | Q4_K_M | 최소한의 VRAM으로 동작. 속도가 가장 빠르고 가볍습니다. |
| 6GB | Q5_K_M | 속도와 지능의 균형이 좋으며, 6GB 환경에 최적화되어 있습니다. |
| 8GB (권장 동작 환경) | Q6_K | 8GB 그래픽 카드(RTX 4060 등)에서 풀 로드(Full Load)하면서 높은 지능을 유지. |
| 12GB | Q8_K_M / Q8_0 | 거의 전정밀도(Full Precision)에 가까운 지능을 발휘. RTX 3060 12G 등에 최적. |
| 16GB | BF16 (부분 오프로드) | 양자화로 인한 열화를 완전히 배제하고 싶을 때 선택합니다. |
| 24GB | BF16 (전정밀도·풀 로드) | RTX 3090/4090 등. 100만 토큰의 장문 컨텍스트를 풀 로드 가능. |
- ※ Hugging Face의
EmperoAI/Qwythos-9B-Claude-Mythos-5-1M-GGUF또는richardyoung/Qwythos-9B-Claude-Mythos-5-1M-Abliterated-GGUF에서 대상.gguf파일을 다운로드하세요.
가장 간단하게 UI를 통해 GGUF를 구동하는 방법입니다.
- LM Studio를 실행하고, 왼쪽 메뉴의 검색 아이콘(Search)을 클릭합니다.
- 검색창에
Qwythos-9B를 입력하고, Hugging Face 상의 리포지토리에서 대응하는 GGUF 모델을 다운로드합니다 (VRAM 용량에 맞춰 위 표의 파일을 지정). - 화면 중앙 상단의 "Select a model to load"에서 다운로드한 Qwythos-9B를 선택합니다.
- 오른쪽 패널의 "Hardware Settings"에서
GPU Offload를 활성화하고, 모든 레이어를 GPU로 오프로드(Max또는 슬라이더를 오른쪽 끝으로 설정)합니다.
실제 운영 환경이나 외부 도구와 연동하고 싶다면, llama.cpp의 서버 기능(llama-server)을 이용하여 API 서버를 구동하는 것이 일반적입니다.
# llama-server 실행 커맨드 예시 (VRAM으로의 오프로드 수를 -ngl로 지정)
# -c 32768은 초기 컨텍스트 크기 (필요에 따라 확장 가능)
./llama-server -m ./models/qwythos-9b-q4_k_m.gguf -c 32768 -ngl 99 --host 0.0.0.0 --port 8080
llama-server를 실행한 후, OpenAI 호환 API 엔드포인트(예: http://localhost:8080/v1)가 공개됩니다. 이를 이용하여 현대적인 UI나 자율적 에이전트 도구와 연결합니다.
- Cherry Studio / OpenWebUI (프론트엔드): UI 도구 측의 "OpenAI API 호환" 설정에
http://localhost:8080/v1을 지정하고, 모델명에qwythos-9b를 설정하는 것만으로 아름다운 채팅 화면에서 대화를 시작할 수 있습니다. - OpenClaw (AI 에이전트 프레임워크): Qwythos-9B는 "원시적인 도구 호출(Function Calling)"이 가능하므로,
OpenClaw설정 파일의 접속 대상 API를 본 로컬 서버로 설정하면 AI 에이전트가 PC 상에서 자율적으로 파일을 편집하거나 도구를 실행하는 워크플로우를 구축할 수 있습니다.
Qwythos-9B를 로컬에서 구동할 때, 가장 주의해야 할 점은 온도(Temperature) 설정입니다.
추론 모델로서의 성능을 끌어내기 위해, 공식 및 검증 사용자들로부터 다음과 같은 샘플링 설정이 강력히 권장되고 있습니다.
- 권장 Temperature:
0.6전후 - 주의사항: 온도 설정을
0.3
다음과 같이 너무 낮은 값(또는 Greedy Decoding)으로 설정하면, 모델이 동일한 문장이나 사고 과정(Thinking Process)을 무한히 반복하여 생성하는 "루프 버그(Loop Bug)"에 빠질 위험이 매우 높아집니다. 모델의 상태가 이상하거나 생성 도중 멈춘다고 느껴진다면, 반드시 설정 화면이나 시스템 프롬프트에서 온도를 0.6으로 조정해 주세요.
로컬 환경에서 몇 가지 테스트 시나리오를 실행한 검증 결과를 정리합니다.
수학 함정 문제나 코드 생성 시의 에러 디버깅을 테스트했습니다.
결과:
사고 과정(<thought> 태그 내)에서 "잠깐, 이 접근 방식으로는 〇〇의 예외 케이스를 처리할 수 없다", "앞서 언급한 계산에 오류가 있었으므로 수정한다"와 같이, Fable 5에서 볼 수 있는 자율적인 자기 수정(Self-refinement)이 확인되었습니다. 최종 출력에 도달하기까지의 정확성은 기존의 단순한 9B 모델을 크게 능가합니다.
수십 장의 PDF 자료(기술 문서)를 한꺼번에 입력하고, 문서 깊숙이 숨겨진 특정 파라미터 사양에 대해 질문했습니다.
결과:
YaRN의 효과 덕분에 컨텍스트 창(Context Window)을 확장하더라도 "길을 잃지(Needle in a Haystack)" 않고, 지정된 사양을 정확하게 추출할 수 있었습니다. 다만, Ollama 등의 실행 환경에서 10만 토큰을 초과하는 입력을 수행할 경우, 시스템의 VRAM/RAM이 충분히 확보되지 않으면 Ollama가 자동으로 컨텍스트 크기를 축소하기 때문에, 물리적인 하드웨어 사양(RAM 용량)이 필요하다는 점에는 주의가 필요합니다.
YaRN 기술을 사용하여 "100만 토큰의 장문 처리"에 특화시킨 대가로, **"매우 짧은 대화나 단순한 태스크(몇 글자의 답변 등)"에서의 생성 날카로움이나 품질이 베이스 모델인 Qwen3.5 본래의 성능으로부터 약간 저하되어 있다(트레이드오프가 있다)**는 점이 테스트를 통해 나타났습니다.
모든 것을 수행하는 만능 챗봇이라기보다는, **"중후한 장문 독해, 복잡한 소스 코드 분석, 자율적 에이전트"**라는 특정 전문 영역에서 최대의 진가를 발휘하는 특화형 모델로 파악하는 것이 적절합니다.
Qwythos-9B는 최고 수준의 클로즈드 모델인 "Claude Fable 5"의 고도화된 논리적 사고를 개인용 PC(4GB~8GB of VRAM)에서 재현할 수 있는 획기적인 추론(Reasoning) 모델입니다.
Fable 5를 물려받은 자율적 자기 수정 능력100만 토큰의 압도적인 컨텍스트 대응소비자급 하드웨어에서 동작하는 GGUF 양자화의 가벼움
이러한 요소들이 융합된 본 모델은, 프라이버시를 보호하면서 로컬에서 소스 코드 분석이나 자율적 AI 에이전트를 구동하고 싶은 개발자에게 2026년 현재 가장 강력한 선택지 중 하나라고 할 수 있습니다. 꼭 Ollama나 LM Studio를 사용하여 그 지능을 직접 체험해 보시기 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기