제가 대신 테스트해 본 5가지 AI 에이전트 '페르소나' — 실제로 효과가 있는 것은 무엇일까요? - Insights | Molayo

저는 2026년 상반기를 제가 "AI 코딩을 제대로 하고 있다"고 생각하며 보냈습니다. Claude Code를 설치하고, Copilot을 실행하며, 프론트엔드 작업을 위해 Cursor를 사용했습니다. 표준적인 스택이었죠. 생산적이라고 느꼈습니다.

그러다 2주 전 샌프란시스코에서 열린 AI Engineer World's Fair에 갔는데, Matt이라는 사람이 시연한 무언가를 보고 제가 마치 한 손이 뒤로 묶인 채 코딩을 해왔다는 기분이 들었습니다. 그는 자신의 Claude Code를 CEO, 디자이너(Designer), 그리고 릴리스 매니저(Release Manager) 역할을 하는 도구들로 구성해 두었습니다. 그것은 단순히 코드를 생성하는 것이 아니라, 어떤 코드를 생성할지 "생각"하고 있었습니다.

그날 밤 저는 파고들기 시작했습니다. 그리고 제가 존재조차 몰랐던 토끼굴(rabbit hole)을 발견했습니다.

현재 GitHub에서는 AI 에이전트 구성 전략(AI agent configuration strategies) 생태계가 폭발적으로 성장하고 있습니다. 어떤 것들은 아주 웃기기도 하고, 어떤 것들은 진정으로 천재적입니다. 몇몇은 그야말로 삶을 변화시킬 정도입니다. 저는 가장 많은 '별(star)'을 받은 5가지를 실제 프로젝트에 일주일 동안 테스트해 보았습니다. 여기 가감 없는 진실이 있습니다.

아무도 말하지 않는 문제

기본적인 AI 코딩 에이전트들은 놀라울 정도로 튜닝이 되어 있지 않습니다.

생각해 보세요. Claude Code나 Cursor를 설치하면 지구상의 다른 모든 개발자와 똑같은 경험을 하게 됩니다. 똑같은 시스템 프롬프트(system prompt). 똑같은 도구 구성(tool configuration). 똑같은 행동 패턴. 이는 마치 게이밍 PC를 사놓고 GPU를 연결하지 않아 내장 그래픽을 사용하는 것과 같습니다.

이 도구들로부터 2~3배 더 많은 가치를 얻어내는 사람들은 더 나은 모델을 사용하는 것이 아닙니다. 그들은 "구성된(configured)" 에이전트를 사용하고 있습니다. 그리고 구성 생태계는 2026년 오픈 소스 AI 개발에서 가장 흥미로운 영역으로 조용히 자리 잡았습니다.

제가 탐사하며 발견한 내용은 다음과 같습니다.

페르소나 1: 원시인 (The Caveman) 🪨 — 82,982★

핵심 컨셉 (The pitch): "왜 많은 토큰(token)을 쓰나, 적은 토큰으로도 충분한데"

JuliusBrussee/caveman은 이름 그대로입니다. 이는 AI가 선사시대 인류처럼 의사소통하도록 강제하는 Claude Code 스킬입니다. 완전한 문장?

없습니다. 미묘한 설명?

없습니다. 이 에이전트는 모든 것을 원시인 수준의 단순함으로 축소합니다.

처음에는 웃음이 나왔습니다. 하지만 별(star) 개수를 보고 생각이 바뀌었습니다. 82,000명의 개발자가 단순히 밈(meme) 때문에 별을 누른 것이 아닙니다. 그들은 이것이 실제로 작동하기 때문에 별을 눌렀습니다.

작동 방식: 이 스킬은 장황한 출력을 제한하는 시스템 레벨의 지침(system-level instruction)을 주입합니다. 다음과 같은 방식 대신에 말이죠:

함수를 분석한 결과, 주요 문제는 비동기 콜백(asynchronous callback) 처리 방식에 있다는 것을 확인했습니다. 하위 호환성을 유지하면서 적절한 async/await 패턴을 사용하도록 리팩터링(refactor)하겠습니다...

다음과 같은 결과를 얻게 됩니다:

함수 고장. 비동기 나쁨. await로 수정. 완료.

토큰 계산 (The token math): 중간 규모의 TypeScript 리팩터링 작업에 테스트해 보았습니다. 표준 Claude Code는 응답에 4,287개의 토큰을 사용했습니다. Caveman 모드는 1,498개를 사용했습니다. 이는 65%의 감소율입니다.

비용 영향: Claude Code의 가격(입력 토큰 1K당 약 $0.015, 출력 토큰 1K당 약 $0.075)을 기준으로 할 때, Caveman 모드는 작업당 약 $0.42를 절약해 주었습니다. 하루에 50개의 작업을 수행한다면 이야기가 달라집니다. 하루에 $21입니다. 한 달이면 토큰 절약 비용만 $420 이상입니다. 단지 대화 방식만 바꿨을 뿐인데 말이죠.

실제로 효과가 있었던 경우: 단순한 리팩터링, 보일러플레이트(boilerplate) 생성, 범위가 명확한 버그 수정 등. 작업이 명확하게 정의되어 있고 출력이 기계적인 경우라면 무엇이든 효과적이었습니다.

처참하게 실패했을 때: 복잡한 아키텍처 결정 (Complex architectural decisions). 마이크로서비스 통신 전략 (microservices communication strategy)을 설계해 달라고 요청했더니, "많은 서비스. 천천히 말하기. 큐(queue) 사용."이라는 답변이 돌아왔습니다. 기술적으로 맞냐고요? 물론이죠. 실제로 유용하냐고요? 전혀 아닙니다.

판결 (Verdict): 빠르고 저렴한 기계적 작업이 필요할 때를 위해 주머니 속에 넣어두세요. 판단력이 필요한 작업에는 사용하지 마세요.

페르소나 2: 게으른 시니어 개발자 (The Lazy Senior Dev) 🦥 — 73,064★

Persona 2: The Lazy Senior Dev 🦥 — 73,064★

핵심 컨셉: "당신의 AI 에이전트가 현장에서 가장 게으른 시니어 개발자처럼 생각하게 만듭니다."

DietrichGebert/ponytail은 Caveman과는 정반대의 접근 방식을 취합니다. 에이전트를 더 멍청하게 만드는 대신, 더 숙련되게 만듭니다. 핵심 철학은 이렇습니다: "최고의 코드는 당신이 작성하지 않은 코드다."

이 문구는 즉시 제 공감을 불러일으켰습니다. 저도 그런 시니어 개발자였던 적이 있으니까요. 주니어의 PR (Pull Request)을 보고 "이거 절반은 지우고 해시 맵 (hash map)을 써."라고 말하곤 했죠.

작동 방식: ponytail 스킬은 수십 년간 학습된 '게으름'을 내재화합니다. 코드를 작성하기 전에 에이전트는 다음과 같이 질문합니다:

"이 문제를 정말로 해결해야 하는가?"
"이를 처리하는 기존 라이브러리 (library)가 있는가?"
"추가하는 코드보다 더 많은 코드를 삭제할 수 있는가?"
"작동하는 가장 단순한 버전은 무엇인가?"

실제 테스트: 저는 CSV 파일을 파싱하고, 데이터를 검증하며, 데이터베이스 (database)에 쓰는 200줄짜리 Python 함수를 주었습니다. 주니어 개발자가 한 달 동안 오후 시간을 쏟아부어 작성할 법한 종류의 코드였죠. 일반적인 Claude Code의 첫 번째 시도: "적절한 에러 핸들링 (error handling)과 함께 pandas를 사용하도록 리팩터링 (refactor)하겠습니다..." (180줄). Ponytail의 응답: "방금 말씀하신 건 pandas.read_sql에 if_exists='append'를 사용하는 것과 같습니다. 3줄입니다. 여기 있습니다." 그리고 그것이 정답이었습니다.

트레이드오프 (Trade-off): Ponytail은 더 느립니다. 토큰을 생성하기 전에 토큰을 사용하여 생각하는 (thinking) 데 시간을 씁니다. 제 테스트 결과, 표준 Claude Code보다 입력 토큰은 15% 더 많이 사용했지만, 출력 토큰은 40% 더 적게 사용했습니다. 순 절감액은 총 약 25%였지만, 진짜 승리는 _품질 (quality)_의 향상이었습니다. 불필요한 추상화(abstraction)가 없고, 과잉 엔지니어링(over-engineering)도 없습니다. 그저 깔끔하고 최소한의 솔루션만을 제공합니다.

결론 (Verdict): 이것은 이제 저의 데일리 드라이버(daily driver)입니다. "게으른 시니어 개발자 (lazy senior dev)" 관점은 불필요한 추상화가 작성되기 전에 그것들을 아주 많이 잡아냅니다.

페르소나 3: CEO 스위트 (The CEO Suite) 👔 — 119,240★

피치 (The pitch): "Garry Tan의 정확한 Claude Code 설정을 사용하세요: CEO, 디자이너, 엔지니어링 매니저 (Eng Manager), 릴리스 매니저 (Release Manager), 문서 엔지니어 (Doc Engineer), 그리고 QA 역할을 수행하는 23개의 도구" 무슨 뜻인지 아시겠죠?

garrytan/gstack은 "페르소나"라기보다는 터미널 안에 압축되어 들어있는 하나의 완전한 관리 팀에 가깝습니다. Garry Tan (YC 회장, Posterous의 초기 엔지니어)은 자신의 정확한 Claude Code 설정을 오픈 소스로 공개했으며, 이는 10만 회 이상 다운로드되었습니다.

아키텍처 (The architecture): 6개의 역할로 구성된 23개의 도구:

역할 (Role)	도구 (Tools)	목적 (Purpose)
CEO	전략 (Strategy), 우선순위 지정 (Prioritization), 로드맵 (Roadmap)	무엇을 만들지 결정
...	...	...

각 역할은 고유의 시스템 프롬프트 (system prompt), 도구, 그리고 행동 양식을 가집니다. @ceo, @designer 등을 입력하여 역할 사이를 전환할 수 있습니다.

킬러 기능 (The killer feature): 핸드오프 프로토콜 (handoff protocol)입니다. 당신이 CEO에게 "랜딩 페이지를 만들어줘"라고 요청하면, CEO는 PRD(제품 요구 사항 문서)를 생성하고, 이를 디자이너(사양을 생성함)에게 넘기고, 다시 엔지니어링 매니저(티켓으로 분할함)에게, 마지막으로 엔지니어(코드를 작성함)에게 전달합니다. 이 프로세스 (process) 자체가 곧 제품입니다.

실제 테스트: 저는 gstack에게 "가격 페이지에 결제 등급 비교 표를 추가해줘"라고 요청했습니다. 표준적인 흐름이라면 제가 직접 컴포넌트를 작성했을 것이고, 약 2시간이 소요되었을 것입니다. 하지만 gstack의 CEO→디자이너(Designer)→엔지니어(Engineer) 체인을 통하니 27분이 걸렸습니다. CEO 도구가 요구사항("3개 등급, 스타트업/소규모 팀/엔터프라이즈")을 명확히 했고, 디자이너는 정확한 간격과 색상이 포함된 명세서(spec)를 생성했으며, 엔지니어가 이를 구현했습니다.

주의할 점: gstack은 수용(buy-in) 과정이 필요합니다. 단순히 설치해서 바로 사용할 수는 없습니다. 도구의 분류 체계(taxonomy)를 익히고, 언제 어떤 역할을 호출해야 하는지 이해하며, 인수인계 프로토콜(handoff protocol)에 익숙해져야 합니다. 능숙해지는 데 약 하루 정도 걸렸습니다. 그 하루가 지난 후의 투자 대비 효과(ROI)는 즉각적이었습니다.

결론: 다섯 가지 중 학습 곡선(learning curve)이 가장 높지만, 잠재력(ceiling) 또한 가장 높습니다. 엔드 투 엔드(end-to-end)로 기능을 구축하고 있다면, 이것이 승자입니다.

페르소나 4: 지식 그래프 (Knowledge Graph) 🕸️ — 77,160★

핵심 가치: "어떤 코드 폴더든 쿼리 가능한 지식 그래프로 변환하세요"

Graphify-Labs/graphify는 다섯 가지 중 기술적으로 가장 흥미로운 도구입니다. 에이전트가 어떻게 생각하는지를 바꾸는 대신, 에이전트가 무엇을 아는지를 바꿉니다.

작동 방식: Graphify는 코드, SQL 스키마(schema), 설정 파일, 문서 등 전체 코드베이스를 파싱(parse)하여 엔티티(entity)와 관계(relationship)의 지식 그래프를 구축합니다. 그러면 에이전트가 이 그래프에 직접 쿼리(query)를 날릴 수 있습니다. "폐기된 인증(auth) 모듈에 의존하는 서비스는 무엇인가요?"라는 질문은 더 이상 grep으로 검색하고 추측하는 작업이 아니라 그래프 쿼리가 됩니다.

확인해 볼 가치가 있는 이유: 표준 모드에서 AI 에이전트가 코드베이스를 이해하는 범위는 컨텍스트 윈도우(context window)로 제한됩니다. 5개의 파일을 보여주면 에이전트는 그 5개의 파일만 압니다. Graphify를 사용하면 에이전트가 컨텍스트에 포함할 필요 없이 어떠한 파일, 어떠한 함수, 어떠한 관계라도 참조할 수 있음을 의미합니다.

저는 47개의 서비스와 약 50만 줄의 TypeScript로 구성된 모노레포(monorepo)에서 이를 테스트했습니다. 표준 Claude Code는 단순한 API 엔드포인트 변경을 위한 의존성 체인(dependency chain)을 이해하는 데 3~4번의 쿼리가 필요했습니다. Graphify를 사용하면 단 한 번의 쿼리로 가능했습니다. 에이전트는 어떤 서비스를 업데이트해야 하는지, 어떤 스키마(schema)를 수정해야 하는지, 그리고 어떤 테스트를 추가해야 하는지를 정확히 알고 있었습니다.

한계점: Graphify는 '이해(understanding)'에는 탁월하지만, '생성(generating)'에는 그저 그렇습니다. 에이전트를 더 빠르게 만드는 것이 아니라 더 똑똑하게 만듭니다. 대규모 코드베이스의 경우 그래프 빌드에 2~5분이 소요되며, 코드베이스가 크게 변경되면 다시 빌드해야 합니다.

결론: 대규모 프로젝트에는 필수적입니다. 소규모 프로젝트에는 과합니다. 만약 코드베이스가 에이전트의 컨텍스트 윈도우(context window)에 들어간다면 이것은 필요하지 않습니다. 하지만 들어가지 않는다면, 이것을 사용하지 않을 여유가 없습니다.

페르소나 5: The Full Harness ⚡ — 225,709★

핵심 요약: "Claude Code, Codex, OpenCode, Cursor 및 그 이상을 위한 에이전트 하네스(agent harness) 성능 최적화 시스템"

affaan-m/ECC는 이 목록에서 가장 포괄적인 항목이며, 225K개의 스타(star)를 보유한 가장 인기 있는 항목입니다. ECC는 스스로를 "에이전트 하네스(agent harness)"라고 부르는데, 이는 여러분의 AI 코딩 에이전트 '위에' 위치하여 기술(skills), 본능(instincts), 메모리(memory), 보안(security) 등 모든 것을 최적화한다는 의미입니다.

차별점: ECC는 단일 페르소나가 아니라, 페르소나를 '구축하기 위한' 프레임워크입니다. 여러분은 다음을 정의합니다:

기술 (Skills): 작업 특화 능력 (코드 리뷰, 테스트 생성, 리팩터링)
본능 (Instincts): 기본 동작 (보수적으로 행동하기, 내장 라이브러리 선호하기, 가독성 최적화하기)
메모리 (Memory): 지속적인 컨텍스트 (프로젝트 컨벤션, 팀 선호도, 코드베이스 이력)
보안 (Security): 가드레일 (검토 없는 운영 환경 접근 금지, 위험한 시스템 호출 금지)

그 결과, '사용하면 할수록 더 좋아지는' 에이전트가 탄생합니다. 표준 Claude Code는 세션 사이의 모든 것을 잊어버리지만, ECC 에이전트는 조직적 지식(institutional knowledge)을 구축합니다.

테스트: 저는 ECC에 "안전 우선(safety-first)" 본능, "TypeScript 전문가" 스킬 팩, 그리고 3개월 된 React Native 앱의 프로젝트 특정 메모리(project-specific memory)를 설정했습니다. 그 차이는 밤과 낮처럼 극명했습니다. 표준 Claude Code가 일반적인 솔루션을 생성하는 반면, ECC는 프로젝트의 기존 패턴—동일한 에러 핸들링(error handling) 스타일, 동일한 명명 규칙(naming conventions), 동일한 컴포넌트 구조—과 일치하는 솔루션을 생성했습니다. ECC는 코드베이스를 학습했습니다.

단점: ECC는 복잡합니다. 설치하고, 스킬을 구성하고, 본능을 훈련시키는 과정은 5분 만에 끝나는 설정이 아닙니다. 제대로 구성하는 데 오후 시간 전체가 걸렸습니다. 하지만 그 이후로는 매 세션이 이전 세션보다 더 생산적이었습니다.

Insights

제가 대신 테스트해 본 5가지 AI 에이전트 '페르소나' — 실제로 효과가 있는 것은 무엇일까요?

요약

핵심 포인트

아무도 말하지 않는 문제

페르소나 1: 원시인 (The Caveman) 🪨 — 82,982★

페르소나 2: 게으른 시니어 개발자 (The Lazy Senior Dev) 🦥 — 73,064★

페르소나 3: CEO 스위트 (The CEO Suite) 👔 — 119,240★

페르소나 4: 지식 그래프 (Knowledge Graph) 🕸️ — 77,160★

페르소나 5: The Full Harness ⚡ — 225,709★

댓글

단순히 전화를 받는 것을 넘어 실제로 업무를 예약하는 AI 접수원을 구축하며 배운 점

AI 시스템의 본방 가동 후, 누가 책임을 지는가: Forward Deployed Engineer 관점에서 보는 모니터링·장애 대응·개선

유럽의 반등으로 전망이 밝아지며 Tesla 인도량, 예상치 상회

AGENTS.md 실습: 단계별 구축 및 에이전트 활용 과정

AI 시스템의 본방 가동 후, 누가 책임을 지는가: Forward Deployed Engineer 관점에서 보는 모니터링·장애 대응·개선

유럽의 반등으로 전망이 밝아지며 Tesla 인도량, 예상치 상회

AGENTS.md 실습: 단계별 구축 및 에이전트 활용 과정