Kiro + Hermes + Ollama로 로컬 AI 자동 모델 전환 환경 구축하기
요약
Claude API 등 클라우드 AI 비용을 절감하기 위해 Ollama 기반의 로컬 모델 자동 라우팅 환경을 구축했습니다. Brain Router를 프록시로 활용하여 사용자의 입력 의도에 따라 경량 모델부터 대규모 추론 모델까지 자동으로 전환하며, TUI 환경인 SCORPION BRAIN을 통해 시각적인 피드백을 제공합니다.
핵심 포인트
- Brain Router를 통한 OpenAI 호환 API 기반의 로컬 모델 자동 라우팅 구현
- 입력 내용(대화, 코드 수정, 설계 등)에 따른 최적의 모델 자동 배분
- Hermes Agent 및 MCP 연동을 통한 로컬 AI 활용성 극대화
- 사이버펑크 스타일의 SCORPION BRAIN TUI를 통한 사용자 경험 제공
- 경량 모델 상주를 통한 로컬 AI 응답 속도 및 체감 성능 개선
Claude API나 클라우드 AI 이용료를 절감하기 위해, Ollama 상의 여러 로컬 모델을 용도별로 자동 라우팅(Routing)하는 환경을 구축했습니다.
구성 요소는 Kiro CLI, Hermes Agent, Ollama, Brain Router, 그리고 SCORPION BRAIN TUI입니다.
일반적인 대화는 경량 고속 모델, 코드 수정은 Coder 모델, 깊이 있는 설계나 리뷰는 규모가 큰 추론 모델로 자동 배분합니다.
테마는 이것입니다.
No cloud. No credits. No limits.
Pure local power.
만든 것
이번에 만든 것은 로컬 AI를 용도별로 자동 전환하며 사용할 수 있는 환경입니다.
겉으로는 두 가지 입구가 있습니다.
・scorpion-brain
・hermes -m auto --provider brain-router
scorpion-brain은 로컬 AI와 직접 채팅하기 위한 화려한 해커 스타일의 TUI(Text User Interface)입니다.
hermes -m auto --provider brain-router는 Hermes Agent의 도구 기능이나 MCP 연동을 사용하면서, Brain Router를 통해 로컬 모델을 사용하기 위한 입구입니다.
모델 구성
현재의 모델 구성은 다음과 같습니다.
| 용도 | 모델 | 역할 |
|---|---|---|
| 일반적인 대화 | gemma4:e4b | 고속 채팅 |
| ... |
매번 수동으로 모델을 전환하는 것이 아니라, 사용자의 입력 내용을 보고 자동으로 라우팅합니다.
예시:
・일반적인 대화 → gemma4:e4b
・가벼운 코드 수정 → OmniCoder-9B
・코드 블록이 포함된 무거운 수정 → qwen3-coder:latest
・설계·리뷰 → qwen3.6:35b-a3b
Brain Router
중심이 되는 것은 Brain Router입니다.
Brain Router는 OpenAI 호환 API로 동작하는 로컬 프록시(Proxy)입니다.
엔드포인트는 다음과 같습니다.
model에 auto를 지정하면, Brain Router가 입력 내용을 보고 적절한 모델로 배분합니다.
표면상으로는 하나의 모델로 보이지만, 내부적으로는 용도에 따라 로컬 모델이 전환되고 있습니다.
Hermes Agent와의 통합
Hermes Agent에서는 다음과 같이 사용합니다.
hermes -m auto --provider brain-router
이렇게 하면 Hermes의 도구 기능이나 MCP 연동을 사용하면서 로컬 모델을 자동 전환할 수 있습니다.
직접 모델을 지정하고 싶을 때는 다음과 같이 사용할 수도 있습니다.
hermes -m qwen3-coder:latest --provider ollama-local
SCORPION BRAIN TUI
로컬 AI와 직접 채팅하기 위해 SCORPION BRAIN이라는 TUI도 만들었습니다.
실행은 다음과 같습니다.
scorpion-brain
특징은 다음과 같습니다.
・사이버펑크 스타일의 TUI
・자동 모델 라우팅 표시
・/mode로 수동 전환
・대화 이력 저장
・스트리밍 응답
・토큰 수, 속도, 경과 시간 표시
TUI 상에서는 어떤 입력이 어떤 모델로 배분되었는지도 볼 수 있도록 했습니다.
예시:
안녕하세요
→ fast → gemma4:e4b
이 설계에 대해 자세히 봐줘
→ deep → qwen3.6:35b-a3b
속도 개선
처음에는 로컬 모델의 첫 응답이 느려서 일반적인 대화에서도 대기 시간이 있었습니다.
그래서 다음과 같은 개선을 도입했습니다.
| 개선 | 효과 |
|---|---|
| gemma4:e4b 상주 | 첫 로드 대기 시간 단축 |
| ... |
결과적으로 일반적인 대화는 상당히 빨라졌습니다.
제 환경에서는 일반 대화가 매우 가벼워져서, 체감상으로는 '매번 실행하는 AI'가 아니라 '상주하고 있는 AI'에 가까워졌습니다.
Kiro CLI 사용법
Kiro CLI는 상당히 강력했습니다.
특히 다음과 같은 용도로 도움이 되었습니다.
・망가진 환경의 복구
・모델 구성 정리
・Brain Router 설계
・Hermes 통합
・TUI 개선
Kiro는 크레딧 방식이므로, 상시 사용하는 것보다 '중요한 설계나 복구에 사용한다'는 방침을 세웠습니다.
평소에는 로컬 모델.
필요할 때만 Kiro.
이러한 구분 사용이 상당히 좋아 보입니다.
구분 사용
현재의 구분 사용은 다음과 같습니다.
| 하고 싶은 일 | 명령어 |
|---|---|
| 화려한 TUI로 로컬 AI와 채팅 | scorpion-brain |
| ... |
요약
로컬 AI (Local AI)는 단일 모델 하나만 설치할 경우, 용도에 따라 속도가 느리거나 성능이 부족할 수 있습니다.
그래서 용도별로 모델을 나누어 자동으로 전환하는 구성으로 만들었습니다.
이번 구성에서는,
・일반적인 대화
・가벼운 코드 수정
・본격적인 코딩
・심도 있는 설계 및 리뷰
를 각각 별도의 모델로 할당했습니다.
클라우드 AI (Cloud AI)를 완전히 사용하지 않는 것이 아니라, 평소에는 로컬에서 구동하고 필요할 때만 Kiro나 클라우드 AI를 사용하는 구성입니다.
AI 과금 비용을 억제하면서도, 로컬에서 자유롭게 테스트할 수 있는 환경으로서 상당히 마음에 듭니다.
No cloud. No credits. No limits.
Pure local power.
향후에는 SCORPION BRAIN의 구축 절차나 고속화 상세 내용도 정리할 예정입니다.
개발 로그에 가까운 글은 note에도 작성하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기