Zenn헤드라인2026. 05. 14. 07:18

#55 「무엇을 할 것인가」에서 「어떻게 움직일 것인가」로. 6가지 워크플로 스킬을 통한 자율화의 완성

요약

본 기사는 AI 에이전트 네트워크가 단순 지능(IQ)을 넘어 복잡한 업무 절차를 수행하는 '실행력'을 갖추기 위해 도입된 6가지 워크플로 스킬에 대해 설명합니다. 이 스킬들은 테스트 설계, 실행, 분석, 보고, 유지보수, 최적화 등 QA 라이프사이클 전반의 전문 기능을 에이전트에게 정착시킵니다. 이를 통해 시스템은 추상적인 지시에 의존하지 않고 엄격한 프로토콜에 따라 작동하며, 자기 복구율과 보고 내용의 완성도가 크게 향상되어 완전 자율형 팀에 근접했습니다.

핵심 포인트

AI 에이전트에게 고도의 업무를 맡기려면 '지능'을 '절차(Skill)'로 패키징하는 것이 핵심이다.
6가지 워크플로 스킬(Test Design, Execution, Analysis, Reporting, Maintenance, Optimization)은 QA 라이프사이클 전반의 전문 기능을 정의한다.
이 스킬들은 Orchestrator가 각 에이전트를 호출할 때 엄격한 '실행 프로토콜'과 JSON 기반 입출력 규칙을 통해 통합된다.
워크플로 스킬 도입 후, 시스템의 자기 복구율은 5%에서 약 45%로 크게 향상되었으며, 보고 내용의 미비율도 현저히 낮아졌다.

🍔 시작하며

안녕하세요! 지난번에는 「Sonnet 계층의 폐지와 Opus로의 일원화」라는 모델 전략의 큰 전환에 대해 작성했습니다.

최고 지능인 Opus를 중심으로 두고, 거버넌스 문서(법)로 제약함으로써 에이전트 네트워크의 「IQ」와 「규율」은 정돈되었습니다. 하지만 마지막으로 남은 과제는 **「복잡한 업무 절차를 어떻게 재현하게 할 것인가」**라는 실행력의 문제였습니다.

본 기사에서는 3월 최종 업데이트에서 구현한 **「6가지 워크플로 스킬 (Workflow Skills)」**에 대해 해설합니다. 단순한 지시의 나열이 아니라, 에이전트에게 「전문 기능」으로서 절차를 정착시킴으로써 자율성이 어떻게 진화했는지 소개합니다!

🧭 과제: 지능이 높아도 「방법」이 제각각

Opus는 매우 똑똑하지만, 「테스트를 실행하고 보고해줘」라고만 전달하면 그때그때 절차가 미묘하게 달라집니다.

어떤 때는 로그를 상세히 읽고, 어떤 때는 표면적인 에러 메시지만으로 판단한다.
Jira 티켓 작성 내용이 담당 에이전트의 「그때그때의 기분」에 따라 흔들린다.

💡 해결책: 6가지 워크플로 스킬의 정의

3월 시스템 업데이트에서는 QA 업무의 라이프사이클을 망라하는 **「6가지 워크플로 스킬 (Workflow Skills)」**을 정의하고, 각각의 에이전트의 SKILL.md에 구현했습니다.

구현된 6가지 스킬

구분	스킬명	개요 (SOP의 핵심)	담당 에이전트 예시
설계	Test Design	요구사항 정의서로부터 중복 없는 테스트 케이스를 생성한다	Orchestrator
실행	Execution	Playwright나 Magicpod를 환경에 따라 구분하여 사용한다	Playwright Executor / Magicpod Executor
분석	Analysis	실패 시 DOM 구조와 네트워크 로그를 대조하여 원인을 특정한다	DevTools Analyzer
보고	Reporting	수정에 필요한 정보를 망라하여 Jira/Slack으로 정형 출력한다	Orchestrator
유지보수	Maintenance	화면 변경에 따른 셀렉터(Selector) 파손을 자동 감지하고 수리한다	DevTools Analyzer
최적화	Optimization	테스트 실행 순서나 커버리지 중복을 정리한다	Orchestrator

🛠️ 구체적인 구현 방법: Orchestrator에 의한 지휘

이러한 스킬들은 단순히 프롬프트로 작성하는 것에 그치지 않고, 사령탑 에이전트인 Orchestrator가 각 에이전트(Playwright Executor, DevTools Analyzer, Magicpod Executor)를 호출할 때의 「실행 프로토콜 (Execution Protocol)」로서 통합했습니다.

워크플로 실행 예시: 테스트 실패 시의 자동 수리

예를 들어, 테스트가 실패했을 때 이전에는 「에러입니다」라는 보고로 끝났지만, 현재는 다음과 같은 스킬이 연쇄적으로 일어납니다.

Analysis 스킬 (DevTools Analyzer): 「셀렉터를 찾을 수 없다」뿐만 아니라, 「HTML 구조가 이렇게 변했으므로 이 경로가 올바르다」라고 분석.
Maintenance 스킬 (DevTools Analyzer): 잠정적으로 수정 코드를 생성하여 로컬에서 시도.
Reporting 스킬 (Orchestrator): 「테스트 실패 → 원인 특정 → 수정안 제시」까지를 세트로 묶어 인간에게 보고.

구현 포인트

각 에이전트의 SKILL.md에는 단순한 역할이 아니라 「이 스킬을 발동할 때는 반드시 절차 A→B→C의 순서로 수행하고, 아웃풋은 JSON 형식으로 Orchestrator에게 반환할 것」과 같은 엄격한 입출력 규칙을 기술하고 있습니다.

🎯 효과: 재현성 확보와 「속인성(개인차)의 배제」

워크플로 스킬을 구현함으로써 시스템 전체의 퍼포먼스는 다음과 같이 변화했습니다.

지표	도입 전	도입 후 (3월 말)
보고 내용의 미비율	약 12%	1% 미만
에러로부터의 자기 복구율	5% (거의 불가)	약 45%
Jira 티켓 수정 요청 횟수	평균 1.5회	0.2회

「IQ가 높기만 한 에이전트」에서, **「세련된 SOP를 능숙하게 다루는 전문가 집단」**으로 진화한 순간이었습니다.

📝 요약

AI 에이전트 (AI Agent)에게 고도의 업무를 맡기기 위한 핵심은, 「지능」을 「절차 (Skill)」로 패키지화하는 것에 있습니다.

❌ 추상적인 지시로 AI의 「해석」에 맡기기
✅ 업무를 최소 단위의 「스킬 (Skill)」로 분해하고, 입출력을 고정하여 구현하기

이를 통해 저의 멀티 에이전트 네트워크 (Multi-agent Network)는 완전 자율형 QA 팀으로서의 완성형에 가까워졌습니다🚀

끝까지 읽어주셔서 감사합니다!

Claude Code를 사용한 멀티 에이전트 개발의 시행착오를 기록하고 있습니다. 괜찮으시다면, Zenn 팔로우나 「좋아요」를 부탁드립니다!

AI 자동 생성 콘텐츠

원문 바로가기