#55 「무엇을 할 것인가」에서 「어떻게 움직일 것인가」로. 6가지 워크플로 스킬을 통한 자율화의 완성
요약
본 기사는 AI 에이전트 네트워크가 단순 지능(IQ)을 넘어 복잡한 업무 절차를 수행하는 '실행력'을 갖추기 위해 도입된 6가지 워크플로 스킬에 대해 설명합니다. 이 스킬들은 테스트 설계, 실행, 분석, 보고, 유지보수, 최적화 등 QA 라이프사이클 전반의 전문 기능을 에이전트에게 정착시킵니다. 이를 통해 시스템은 추상적인 지시에 의존하지 않고 엄격한 프로토콜에 따라 작동하며, 자기 복구율과 보고 내용의 완성도가 크게 향상되어 완전 자율형 팀에 근접했습니다.
핵심 포인트
- AI 에이전트에게 고도의 업무를 맡기려면 '지능'을 '절차(Skill)'로 패키징하는 것이 핵심이다.
- 6가지 워크플로 스킬(Test Design, Execution, Analysis, Reporting, Maintenance, Optimization)은 QA 라이프사이클 전반의 전문 기능을 정의한다.
- 이 스킬들은 Orchestrator가 각 에이전트를 호출할 때 엄격한 '실행 프로토콜'과 JSON 기반 입출력 규칙을 통해 통합된다.
- 워크플로 스킬 도입 후, 시스템의 자기 복구율은 5%에서 약 45%로 크게 향상되었으며, 보고 내용의 미비율도 현저히 낮아졌다.
🍔 시작하며
안녕하세요! 지난번에는 「Sonnet 계층의 폐지와 Opus로의 일원화」라는 모델 전략의 큰 전환에 대해 작성했습니다.
최고 지능인 Opus를 중심으로 두고, 거버넌스 문서(법)로 제약함으로써 에이전트 네트워크의 「IQ」와 「규율」은 정돈되었습니다. 하지만 마지막으로 남은 과제는 **「복잡한 업무 절차를 어떻게 재현하게 할 것인가」**라는 실행력의 문제였습니다.
본 기사에서는 3월 최종 업데이트에서 구현한 **「6가지 워크플로 스킬 (Workflow Skills)」**에 대해 해설합니다. 단순한 지시의 나열이 아니라, 에이전트에게 「전문 기능」으로서 절차를 정착시킴으로써 자율성이 어떻게 진화했는지 소개합니다!
🧭 과제: 지능이 높아도 「방법」이 제각각
Opus는 매우 똑똑하지만, 「테스트를 실행하고 보고해줘」라고만 전달하면 그때그때 절차가 미묘하게 달라집니다.
- 어떤 때는 로그를 상세히 읽고, 어떤 때는 표면적인 에러 메시지만으로 판단한다.
- Jira 티켓 작성 내용이 담당 에이전트의 「그때그때의 기분」에 따라 흔들린다.
💡 해결책: 6가지 워크플로 스킬의 정의
3월 시스템 업데이트에서는 QA 업무의 라이프사이클을 망라하는 **「6가지 워크플로 스킬 (Workflow Skills)」**을 정의하고, 각각의 에이전트의 SKILL.md에 구현했습니다.
구현된 6가지 스킬
| 구분 | 스킬명 | 개요 (SOP의 핵심) | 담당 에이전트 예시 |
|---|---|---|---|
| 설계 | Test Design | 요구사항 정의서로부터 중복 없는 테스트 케이스를 생성한다 | Orchestrator |
| 실행 | Execution | Playwright나 Magicpod를 환경에 따라 구분하여 사용한다 | Playwright Executor / Magicpod Executor |
| 분석 | Analysis | 실패 시 DOM 구조와 네트워크 로그를 대조하여 원인을 특정한다 | DevTools Analyzer |
| 보고 | Reporting | 수정에 필요한 정보를 망라하여 Jira/Slack으로 정형 출력한다 | Orchestrator |
| 유지보수 | Maintenance | 화면 변경에 따른 셀렉터(Selector) 파손을 자동 감지하고 수리한다 | DevTools Analyzer |
| 최적화 | Optimization | 테스트 실행 순서나 커버리지 중복을 정리한다 | Orchestrator |
🛠️ 구체적인 구현 방법: Orchestrator에 의한 지휘
이러한 스킬들은 단순히 프롬프트로 작성하는 것에 그치지 않고, 사령탑 에이전트인 Orchestrator가 각 에이전트(Playwright Executor, DevTools Analyzer, Magicpod Executor)를 호출할 때의 「실행 프로토콜 (Execution Protocol)」로서 통합했습니다.
워크플로 실행 예시: 테스트 실패 시의 자동 수리
예를 들어, 테스트가 실패했을 때 이전에는 「에러입니다」라는 보고로 끝났지만, 현재는 다음과 같은 스킬이 연쇄적으로 일어납니다.
- Analysis 스킬 (DevTools Analyzer): 「셀렉터를 찾을 수 없다」뿐만 아니라, 「HTML 구조가 이렇게 변했으므로 이 경로가 올바르다」라고 분석.
- Maintenance 스킬 (DevTools Analyzer): 잠정적으로 수정 코드를 생성하여 로컬에서 시도.
- Reporting 스킬 (Orchestrator): 「테스트 실패 → 원인 특정 → 수정안 제시」까지를 세트로 묶어 인간에게 보고.
구현 포인트
각 에이전트의 SKILL.md에는 단순한 역할이 아니라 「이 스킬을 발동할 때는 반드시 절차 A→B→C의 순서로 수행하고, 아웃풋은 JSON 형식으로 Orchestrator에게 반환할 것」과 같은 엄격한 입출력 규칙을 기술하고 있습니다.
🎯 효과: 재현성 확보와 「속인성(개인차)의 배제」
워크플로 스킬을 구현함으로써 시스템 전체의 퍼포먼스는 다음과 같이 변화했습니다.
| 지표 | 도입 전 | 도입 후 (3월 말) |
|---|---|---|
| 보고 내용의 미비율 | 약 12% | 1% 미만 |
| 에러로부터의 자기 복구율 | 5% (거의 불가) | 약 45% |
| Jira 티켓 수정 요청 횟수 | 평균 1.5회 | 0.2회 |
「IQ가 높기만 한 에이전트」에서, **「세련된 SOP를 능숙하게 다루는 전문가 집단」**으로 진화한 순간이었습니다.
📝 요약
AI 에이전트 (AI Agent)에게 고도의 업무를 맡기기 위한 핵심은, 「지능」을 「절차 (Skill)」로 패키지화하는 것에 있습니다.
- ❌ 추상적인 지시로 AI의 「해석」에 맡기기
- ✅ 업무를 최소 단위의 「스킬 (Skill)」로 분해하고, 입출력을 고정하여 구현하기
이를 통해 저의 멀티 에이전트 네트워크 (Multi-agent Network)는 완전 자율형 QA 팀으로서의 완성형에 가까워졌습니다🚀
끝까지 읽어주셔서 감사합니다!
Claude Code를 사용한 멀티 에이전트 개발의 시행착오를 기록하고 있습니다. 괜찮으시다면, Zenn 팔로우나 「좋아요」를 부탁드립니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기