Kiro + Hermes + Ollama로 로컬 AI 자동 모델 전환 환경 구축하기

요약

Claude API 등 클라우드 AI 비용을 절감하기 위해 Ollama 기반의 로컬 모델 자동 라우팅 환경을 구축했습니다. Brain Router를 프록시로 활용하여 사용자의 입력 의도에 따라 경량 모델부터 대규모 추론 모델까지 자동으로 전환하며, TUI 환경인 SCORPION BRAIN을 통해 시각적인 피드백을 제공합니다.

핵심 포인트

Brain Router를 통한 OpenAI 호환 API 기반의 로컬 모델 자동 라우팅 구현
입력 내용(대화, 코드 수정, 설계 등)에 따른 최적의 모델 자동 배분
Hermes Agent 및 MCP 연동을 통한 로컬 AI 활용성 극대화
사이버펑크 스타일의 SCORPION BRAIN TUI를 통한 사용자 경험 제공
경량 모델 상주를 통한 로컬 AI 응답 속도 및 체감 성능 개선

Claude API나 클라우드 AI 이용료를 절감하기 위해, Ollama 상의 여러 로컬 모델을 용도별로 자동 라우팅(Routing)하는 환경을 구축했습니다.

구성 요소는 Kiro CLI, Hermes Agent, Ollama, Brain Router, 그리고 SCORPION BRAIN TUI입니다.

일반적인 대화는 경량 고속 모델, 코드 수정은 Coder 모델, 깊이 있는 설계나 리뷰는 규모가 큰 추론 모델로 자동 배분합니다.

테마는 이것입니다.

No cloud. No credits. No limits.

Pure local power.

만든 것

이번에 만든 것은 로컬 AI를 용도별로 자동 전환하며 사용할 수 있는 환경입니다.

겉으로는 두 가지 입구가 있습니다.

・scorpion-brain

・hermes -m auto --provider brain-router

scorpion-brain은 로컬 AI와 직접 채팅하기 위한 화려한 해커 스타일의 TUI(Text User Interface)입니다.

hermes -m auto --provider brain-router는 Hermes Agent의 도구 기능이나 MCP 연동을 사용하면서, Brain Router를 통해 로컬 모델을 사용하기 위한 입구입니다.

모델 구성

현재의 모델 구성은 다음과 같습니다.

용도	모델	역할
일반적인 대화	gemma4:e4b	고속 채팅
...

매번 수동으로 모델을 전환하는 것이 아니라, 사용자의 입력 내용을 보고 자동으로 라우팅합니다.

예시:

・일반적인 대화 → gemma4:e4b

・가벼운 코드 수정 → OmniCoder-9B

・코드 블록이 포함된 무거운 수정 → qwen3-coder:latest

・설계·리뷰 → qwen3.6:35b-a3b

Brain Router

중심이 되는 것은 Brain Router입니다.

Brain Router는 OpenAI 호환 API로 동작하는 로컬 프록시(Proxy)입니다.

엔드포인트는 다음과 같습니다.

model에 auto를 지정하면, Brain Router가 입력 내용을 보고 적절한 모델로 배분합니다.

표면상으로는 하나의 모델로 보이지만, 내부적으로는 용도에 따라 로컬 모델이 전환되고 있습니다.

Hermes Agent와의 통합

Hermes Agent에서는 다음과 같이 사용합니다.

hermes -m auto --provider brain-router

이렇게 하면 Hermes의 도구 기능이나 MCP 연동을 사용하면서 로컬 모델을 자동 전환할 수 있습니다.

직접 모델을 지정하고 싶을 때는 다음과 같이 사용할 수도 있습니다.

hermes -m qwen3-coder:latest --provider ollama-local

SCORPION BRAIN TUI

로컬 AI와 직접 채팅하기 위해 SCORPION BRAIN이라는 TUI도 만들었습니다.

실행은 다음과 같습니다.

scorpion-brain

특징은 다음과 같습니다.

・사이버펑크 스타일의 TUI

・자동 모델 라우팅 표시

・/mode로 수동 전환

・대화 이력 저장

・스트리밍 응답

・토큰 수, 속도, 경과 시간 표시

TUI 상에서는 어떤 입력이 어떤 모델로 배분되었는지도 볼 수 있도록 했습니다.

예시:

안녕하세요
→ fast → gemma4:e4b

이 설계에 대해 자세히 봐줘
→ deep → qwen3.6:35b-a3b

속도 개선

처음에는 로컬 모델의 첫 응답이 느려서 일반적인 대화에서도 대기 시간이 있었습니다.

그래서 다음과 같은 개선을 도입했습니다.

개선	효과
gemma4:e4b 상주	첫 로드 대기 시간 단축
...

결과적으로 일반적인 대화는 상당히 빨라졌습니다.

제 환경에서는 일반 대화가 매우 가벼워져서, 체감상으로는 '매번 실행하는 AI'가 아니라 '상주하고 있는 AI'에 가까워졌습니다.

Kiro CLI 사용법

Kiro CLI는 상당히 강력했습니다.

특히 다음과 같은 용도로 도움이 되었습니다.

・망가진 환경의 복구

・모델 구성 정리

・Brain Router 설계

・Hermes 통합

・TUI 개선

Kiro는 크레딧 방식이므로, 상시 사용하는 것보다 '중요한 설계나 복구에 사용한다'는 방침을 세웠습니다.

평소에는 로컬 모델.

필요할 때만 Kiro.

이러한 구분 사용이 상당히 좋아 보입니다.

구분 사용

현재의 구분 사용은 다음과 같습니다.

하고 싶은 일	명령어
화려한 TUI로 로컬 AI와 채팅	scorpion-brain
...

요약

로컬 AI (Local AI)는 단일 모델 하나만 설치할 경우, 용도에 따라 속도가 느리거나 성능이 부족할 수 있습니다.

그래서 용도별로 모델을 나누어 자동으로 전환하는 구성으로 만들었습니다.

이번 구성에서는,

・일반적인 대화

・가벼운 코드 수정

・본격적인 코딩

・심도 있는 설계 및 리뷰

를 각각 별도의 모델로 할당했습니다.

클라우드 AI (Cloud AI)를 완전히 사용하지 않는 것이 아니라, 평소에는 로컬에서 구동하고 필요할 때만 Kiro나 클라우드 AI를 사용하는 구성입니다.

AI 과금 비용을 억제하면서도, 로컬에서 자유롭게 테스트할 수 있는 환경으로서 상당히 마음에 듭니다.