계정 전환자를 넘어: CLI 에이전트를 완전 자율 공장으로 래핑하기

다음은 DEV.to에 맞춰 작성된 상세하고 심도 있는 기사입니다. 자연스럽고 매우 기술적인 스타일로 작성되었으며, 아이콘을 완전히 배제하고 에이전트 워크플로우 (agentic workflows)를 구축하는 개발자들의 공감을 얻을 수 있도록 설계되었습니다.

자율 AI 경험 엔진 구축: 멀티 에이전트 CLI 플릿(Fleet) 길들이기

개발자들이 워크플로우에 더 많은 AI 도구를 통합함에 따라, 새로운 아키텍처적 문제인 에이전트 확산 (agent sprawl)이 나타났습니다. 우리는 터미널에서 Claude, Grok, Codex와 같은 놀라운 도구들을 실행하고 있지만, 이들은 고립된 상태(silos)로 작동합니다. 이들은 공유 메모리가 부족하고, 서로의 영역을 침범하며, 이들을 조정하는 것은 마치 고양이 떼를 몰고 다니는 것처럼 느껴집니다.

이를 해결하기 위해, 저는 오픈 소스 기반의 다중 언어 AI 경험 엔진인 TechSphereX Studio를 구축했습니다. 이는 AI 코딩 작업을 가로채고, CLI 에이전트 플릿 전체에 걸쳐 목표 지향적인 작업을 오케스트레이션하며, 미래의 결과를 개선하기 위해 모든 세션으로부터 수학적으로 학습하도록 설계된 자율 멀티 에이전트 플랫폼입니다.

고립된 프롬프트 엔지니어링 (prompt engineering)에서 완전히 자동화된 자가 학습형 에이전트 브레인으로 어떻게 전환했는지에 대한 심층 분석을 시작하겠습니다.

핵심 아키텍처 기둥

1. 3계층 인터셉트 파이프라인 (The 3-Layer Intercept Pipeline)

어떤 CLI가 명령을 실행하기 전에, TechSphereX는 해당 작업을 가로채서 시스템이 과거 경험을 바탕으로 이미 문제를 해결하는 방법을 알고 있는지 판단합니다. 이 과정은 고도로 최적화된 세 개의 계층을 통해 이루어집니다:

Layer 1 (Read-only Filter): 1ms 미만으로 동작을 평가합니다. 만약 동작이 비파괴적(단순 읽기 등)이라면, 리소스를 절약하기 위해 무거운 프로세싱을 건너뜁니다.
Layer 2 (Semantic Search): 로컬에서 실행되는 Qdrant를 사용하여 벡터 임베딩 (Vector Embeddings)을 수행하고, 50ms 미만 내에 시스템 기록에서 유사한 과거 작업을 검색합니다.
Layer 3 (LLM Rerank): 시맨틱 (Semantic) 검색 결과를 로컬 Ollama 인스턴스로 전달하여 500ms 미만 내에 문맥적으로 무관한 데이터를 필터링함으로써, 실행 에이전트가 고충실도 (High-fidelity) 문맥만을 전달받도록 보장합니다.

2. 에이전트 브레인 및 다중 역할 팀 (The Agentic Brain & Multi-Role Teams)

단일 코딩 에이전트에게 거대하고 복잡한 프롬프트 (Prompt)를 던지는 대신, TechSphereX는 다중 역할 엔지니어링 팀을 모방합니다. 파이프라인은 **BA 에이전트 (BA Agent, 비즈니스 분석가)**로부터 시작됩니다.

사용자가 목표를 제출하면, BA 에이전트는 요청을 별개의 사용자 스토리 (User Stories)로 분해하고, 피보나치 스토리 포인트 (Fibonacci story points)를 할당한 뒤, 이를 SQLite 기반의 우선순위 큐 (Priority Queue)에 밀어 넣습니다. 그런 다음 시스템은 각 CLI의 강점에 따라 특정 CLI를 통해 이러한 작업들을 오케스트레이션 (Orchestrate)합니다: Grok은 리서치 단계를 담당하고, Claude는 코딩을 맡으며, AGY는 테스트 및 평가를 담당합니다.

3. 서버 전송 이벤트 (SSE) 및 CLI 브리지 (The CLI Bridge)

서로 다른 터미널 프로세스에서 실행되는 비동기 CLI 도구들을 관리하려면 강력한 통신이 필요합니다. TechSphereX는 호스트 네트워크에서 실행되는 Python 기반의 CLI 브리지 (CLI Bridge)를 활용합니다.

작업이 큐에 쌓이면, 오케스트레이터는 서버 전송 이벤트 (Server-Sent Events, SSE)를 사용하여 사용 가능한 CLI에 작업을 푸시합니다. 각 CLI는 실시간 상태 (busy, idle, offline)를 중앙 집중식 FastAPI 엔진으로 보고하며, 엔진은 React 프론트엔드 대시보드를 즉각적으로 업데이트합니다.

4. 엄격한 보안 및 인간 개입 (Human-in-the-Loop, HITL) 게이트

자율성이 목표이긴 하지만, 로컬 파일 시스템에서 제약 없는 AI를 실행하는 것은 위험합니다. 시스템은 엄격한 보안 경계를 강제합니다:

보안 및 삭제 작업 (Security & Delete Operations): 삭제 또는 중요한 보안 변경을 포함하는 모든 작업은 즉시 중단됩니다. 이는 대시보드나 Telegram 알림을 통한 명시적인 인간 참여 (Human-in-the-Loop, HITL) 승인을 필요로 합니다. 시스템이 이를 자동으로 에스컬레이션(escalate)하는 일은 절대 없습니다.
표준 타임아웃 우회 (Standard Timeout Bypasses): 중요하지 않은 작업의 경우, 멀티 에이전트 심의 (multi-agent deliberation)가 정체되거나 입력이 필요함에도 180초 이내에 응답하지 않으면, 오케스트레이터 (orchestrator)는 대기열을 차단하지 않고 파이프라인을 계속 진행시키기 위해 폴백 전략 (fallback strategy)을 강제로 실행합니다.

기술 스택: 폴리글랏 모노레포 (A Polyglot Monorepo)

속도, 메모리 안전성, 그리고 UI 응답성 사이의 적절한 균형을 맞추기 위해, 저는 이를 폴리글랏 모노레포 (polyglot monorepo)로 설계했습니다:

코어 엔진 (Core Engine): Python 3.10+ 및 FastAPI (0.115)가 무거운 작업, 비동기 에이전트 루프 (asynchronous agent loops), 그리고 라우팅 (routing)을 처리합니다.
벡터 및 로컬 LLM (Vector & Local LLM): Qdrant가 경험 저장소 (experience storage)를 관리하며, Ollama가 리랭킹 (reranking)과 로컬 추론 (local inference)을 담당합니다.
데스크톱 대시보드 (Desktop Dashboard): React 19와 Tauri 2.0 (Rust)의 결합을 통해 플릿 (fleet) 모니터링, HITL 대기열 관리, 지식 그래프 (knowledge graph) 조회를 위한 매우 빠르고 가벼운 데스크톱 인터페이스를 제공합니다.
CLI 후크 (CLI Hooks): PowerShell 및 Bash 스크립트가 기존 CLI 도구(Claude 및 Grok 등)를 네이티브하게 래핑(wrap)하여, 소스 코드를 수정하지 않고도 텔레메트리 (telemetry)를 중앙 엔진으로 보고할 수 있게 합니다.

실행이 완료되면 http://localhost:5173/goals로 이동하여 프롬프트를 제출하십시오. 그러면 BA 에이전트가 작업을 분해하는 동시에 CLI 플릿이 자동으로 작업을 점유하고 실행하는 모습을 볼 수 있습니다.

다음 단계는 무엇인가?

Phase 11 에이전트 브레인 (Agentic Brain)은 완전히 작동 중이지만, 다음 단계는 피드백 루프를 확장하는 것입니다. 저는 현재 멀티 에이전트 심의의 결과가 L2 Qdrant 임베딩 (embeddings)을 직접 업데이트하는 메커니즘을 작업 중이며, 이를 통해 시스템이 인간의 수정 없이도 과거의 구조적 실수를 완전히 피할 수 있도록 만들고자 합니다.

TechSphereX Studio는 MIT 라이선스 하에 완전히 오픈 소스(open-source)로 제공됩니다. 자율 에이전트 루프(autonomous agent loops), 멀티 에이전트 프레임워크(multi-agent frameworks)를 탐구하고 계시거나, 단순히 AI 코딩 도구들을 정리하려는 중이라면, 이 아키텍처(architecture)에 대한 여러분의 의견을 듣고 싶습니다.

여기에서 문서와 라이브 환경 레이아웃을 확인하실 수 있습니다: https://khaitrang1995.github.io/techspherex-studio/