하나의 에이전트, 다양한 기술: 단일 채팅 메시지 뒤에서 복잡한 워크플로우가 실행되는 방식
요약
단일 메시지 입력으로 복잡한 워크플로우를 처리하는 오케스트레이터 기반 멀티 에이전트 협업 방식을 설명합니다. 음성 전사부터 이메일 작성, 캘린더 및 작업 도구 업데이트까지 단계별로 연결된 실질적인 AI 비서 구현 사례를 다룹니다.
핵심 포인트
- 단일 입력으로 다단계 워크플로우를 실행하는 오케스트레이터 개념
- 음성-텍스트 변환, 구조 추출, 문맥 참조 등 단계별 에이전트 역할
- 이전 단계의 출력을 다음 단계가 활용하는 의존적 워크플로우
- 실제 생산성 도구(Google Calendar, Notion 등)와의 연동 중요성
"멀티 에이전트 협업 (Multi-agent coordination)"은 마치 연구 논문에나 나올 법한 이야기처럼 들립니다. AI 모델들이 군집을 이루어 서로 메시지를 주고받고, 전략을 토론하며, 결과에 대해 투표하는 모습 말이죠. 이는 인상적인 데모나 흥미로운 Twitter 스레드를 만드는 데는 아주 좋습니다.
하지만 실제 상황에서 — 누군가가 그저 자신의 업무 일과를 무사히 마치고 싶어 하는 종류의 제품에서는 — 멀티 에이전트 협업은 다른 모습으로 나타납니다. 그것은 Mike가 회의 후 90초짜리 음성 메모를 녹음하면, 구조화된 요약본, 후속 이메일 초안, 업데이트된 캘린더, 그리고 새로고침된 작업 보드를 돌려받는 모습과 같습니다. 메시지 하나를 입력하면, 결과 하나가 나옵니다. 그 결과 뒤에는 각각이 이전 단계에 의존하는 6개의 별개 작업이 순차적으로 실행되었습니다.
이것이 개인용 AI 비서에서 실제로 작동하는 멀티 에이전트 협업의 모습입니다. 즉, 오케스트레이터 (Orchestrator)입니다.
실제 사례: 회의 후 요약
Mike는 작은 컨설팅 회사를 운영합니다. 모든 고객 통화가 끝난 후, 그는 약 90초 동안 의식의 흐름대로 음성 메모를 녹음합니다. 무엇이 결정되었는지, 누가 무엇을 약속했는지, 미결 질문은 무엇인지, 다음 통화는 언제 해야 하는지 등을 말이죠.
그는 Telegram을 통해 Key(그의 AI 비서)에게 이 메모를 보냅니다. 그 다음에 일어나는 일은 다음과 같습니다:
1단계: 음성-텍스트 변환 (Speech-to-text) – 오디오가 전사 (Transcription) 기술을 거칩니다. 가공되지 않은 음성이 텍스트가 됩니다. 이 부분은 간단합니다. 중요한 것은 전사 이후에 일어나는 일입니다.
2단계: 구조 추출 (Structure extraction) – 언어 모델 (Language model)이 전사된 내용을 분석하여 구조화된 출력물을 생성합니다: 결정된 사항, 담당자와 마감 기한이 포함된 실행 항목 (Action items), 후속 조치가 필요한 미결 질문, 작업 간의 의존성 등입니다. 즉시 실행 가능한 정리된 문서가 만들어집니다.
3단계: 문맥 교차 참조 (Context cross-reference) – 메모리 레이어 (Memory layer)가 이 회의를 이전의 모든 사항과 연결합니다. 동일한 고객과의 이전 회의들, 지난 통화에서 남은 작업들, 캘린더 기록, 참석자들과의 이메일 스레드 등이 포함됩니다. 에이전트는 이 회의가 관계 속에서 어디에 위치하는지를 이해합니다.
4단계: 이메일 초안 작성 (Email drafting) – 후속 이메일, 즉 표준적인 "논의된 바와 같이" 메시지가 초안으로 작성됩니다. 4단계는 2단계와 3단계의 출력값을 읽기 때문에, 이 초안에는 구체적인 결정 사항, 이전의 합의 내용, 그리고 관계의 맥락이 반영됩니다. 이는 Key가 수개월간의 대화를 통해 파악한 Mike의 커뮤니케이션 스타일을 반영합니다.
5단계: 캘린더 일정 (Calendar event) – 후속 회의가 언급되었다면, Google Calendar 스킬이 날짜, 시간, 참석자, 그리고 회의 요약(recap)에서 추출한 의제(agenda)를 포함하여 일정을 생성합니다. 초대장은 자동으로 발송됩니다.
6단계: 작업 업데이트 (Task updates) – Notion이 연결되어 있다면, 완료된 작업은 이동되고 새로운 작업은 담당자와 마감 기한과 함께 나타납니다. 프로젝트 보드는 오늘 오후 현재 시점을 기준으로 통화에서 결정된 사항을 반영합니다.
여섯 가지 작업이 수행되었습니다. Mike는 구조화된 요약, 승인을 기다리는 이메일 초안, 그리고 캘린더와 작업 목록이 최신 상태로 업데이트되었다는 확인을 보게 됩니다. Mike가 투입한 총 시간은 90초간의 대화와 검토를 위한 몇 분뿐입니다.
무엇이 이것을 "조정(coordination)"으로 만드는가
흥미로운 점은 이 여섯 단계가 어떻게 연결되어 있는가 하는 점입니다.
후속 이메일은 합의된 내용을 참조하는데, 이는 4단계가 2단계의 출력값을 읽기 때문입니다. 캘린더 초대에는 의제가 포함되는데, 이는 5단계가 동일한 구조화된 출력값을 읽기 때문입니다. 작업 업데이트는 어떤 기존 작업을 완료로 표시할지 알고 있는데, 이는 6단계가 3단계의 맥락을 쿼리(query)하기 때문입니다.
이것이 바로 "복잡한 로직(complex logic)" 부분입니다. 단계 간의 의존성(Dependencies)입니다. 조건부 분기(Conditional branching)도 존재합니다. 만약 요약 내용에 후속 회의가 언급되지 않았다면 5단계는 실행되지 않으므로, 유령 캘린더 일정이 생기지 않습니다. 만약 실행 항목(action item)이 이전 회의에서 합의된 내용과 모순된다면, 에이전트는 보드를 조용히 업데이트하는 대신 이를 플래그(flag)로 표시합니다.
Zapier, Make, n8n과 같은 전통적인 자동화 플랫폼에서는 이러한 연결을 수동으로 구축해야 합니다. 트리거(Trigger)가 액션(action)으로 이어지고, 액션이 분기(branch)로 이어지며, 다시 액션으로 이어지는 방식입니다. 사용자가 흐름(flow)을 설계하고, 흐름을 유지 관리하며, 새로운 도구의 도입, 회의 형식의 변경, 단계의 추가 등 무언가 변경될 때마다 흐름을 다시 설계해야 합니다.
지속적인 컨텍스트 (Persistent context)를 유지하는 에이전트가 있다면, 연결은 콘텐츠를 이해하는 과정에서 자연스럽게 발생합니다. 에이전트는 대화 기록 (Transcript)을 읽고, 무엇이 논의되었는지 이해하며, 출력값이 무엇을 의미하는지 파악하기 때문에 출력값을 적절한 위치로 라우팅 (Routing)합니다. 플로우차트 (Flowchart)도, 워크플로우 빌더 (Workflow builder)도, 유지보수도 필요 없습니다.
또 다른 예시: 미디어 생성 (Media generation)
Mike가 메시지를 보냅니다: "이 사진을 지브리 스타일로 바꿔서 팀 채팅방에 보내줘."
네 개의 서로 다른 서브시스템 (Subsystem)에서 네 개의 작업이 수행됩니다:
- 언어 모델 (Language model)이 의도를 해석하고 적절한 미디어 생성 기술 (Media generation skill)을 선택합니다.
- 이미지 처리 기술 (Image processing skill)이 샌드박스 환경 (Sandboxed environment)에서 실행됩니다. 이는 자체 파일 시스템을 가진 격리된 Docker 컨테이너로, Mike의 데이터나 자격 증명 (Credentials)에 접근할 수 없습니다.
- 비용 추적 (Cost tracking) 기능이 Mike의 지갑 잔액에 대해 해당 작업을 기록합니다. 이는 작업당 투명한 과금 방식입니다.
- 전달 레이어 (Delivery layer)가 결과를 올바른 채널로 라우팅합니다. 이미지는 Mike가 요청을 보낸 채팅창에 나타납니다.
Mike는 대화창에 이미지가 나타나는 것을 봅니다. 모델 라우팅 (Model routing), 샌드박스 실행 (Sandboxed execution), 과금 통합 (Billing integration), 채널 인식 전달 (Channel-aware delivery)과 같은 배후의 오케스트레이션 (Orchestration)은 보이지 않습니다. 그것이 바로 핵심입니다.
대규모 환경에서의 모습
여기서는 정직함이 중요합니다. 왜냐하면 "멀티 에이전트 (Multi-agent)"라는 용어가 이미 많은 의미를 내포하게 되었기 때문입니다.
개인 비서를 유용하게 만드는 종류의 조정 (Coordination)은, 특화된 기술 (Specialized skills)에 접근할 수 있는 하나의 에이전트가 작업 요구 사항에 따라 이를 순차적 또는 병렬적으로 실행하며, 수개월간의 대화를 아우르는 지속적인 컨텍스트 (Persistent context)로 연결되는 방식입니다. 외부로 나가는 모든 사항에 대해 Mike는 루프 (Loop) 안에 머뭅니다. 이메일은 그의 승인을 기다리고, 캘린더 이벤트는 검토될 수 있습니다. 에이전트가 제안하고, Mike가 결정합니다.
에이전트 그 자체는 목적에 맞게 구축된 인프라 (Infrastructure)입니다. 기술 라우팅 (Skill routing)은 어떤 역량을 호출할지 결정하고, 샌드박스 격리 (Sandbox isolation)는 각 실행을 안전하게 유지하며, 메모리 레이어 (Memory layer)는 연속성을 유지하고, 전달 레이어 (Delivery layer)는 결과를 올바른 곳으로 전달합니다. 사용자는 그저 말하기만 하면 됩니다.
실제로 멀티 에이전트 조정 (Multi-agent coordination)은 눈에 보이지 않습니다. 당신은 음성 메모를 녹음합니다. 이미지를 요청합니다. 에이전트에게 누군가에게 후속 조치를 취하라고 말합니다. 각 요청의 이면에서는 여러 개의 특화된 시스템이 활성화되어 서로 정보를 전달하고 통합된 결과를 만들어냅니다. 복잡함은 인프라 (Infrastructure)에 존재하며, 사용자 경험은 단순하게 유지됩니다.
저는 Amplify의 CTO인 Yevhen입니다. 저희는 오픈 소스 에이전트 프레임워크인 OpenClaw를 기반으로 개인용 AI 비서를 구축합니다. 베타 테스트 기간 동안, 초기 사용자 대부분은 제품의 스트레스 테스트를 위해 저희가 초대한 파트너, 동료 및 친구들이었습니다. 조정 레이어 (Coordination layer)가 기술 라우팅 (Skill routing), 비용 추적 (Cost tracking), 교차 채널 전달 (Cross-channel delivery)을 처리하므로, 사용자와 개발자 모두 이를 수동으로 연결할 필요가 없습니다. 이것이 일상적인 경험으로서 어떻게 보이는지 궁금하시다면 getamplify.team에서 시작해 보세요.
자주 묻는 질문 (Frequently Asked Questions)
개인용 AI 비서에서 멀티 에이전트 조정이란 무엇인가요?
이는 전사 (Transcription), 이메일 초안 작성, 일정 관리, 작업 업데이트와 같은 여러 특화된 기술 (Skills)에 접근할 수 있는 하나의 비서가 작업 요구 사항에 따라 이를 순차적 또는 병렬적으로 실행하는 것을 의미합니다. 당신이 메시지를 하나 보내면, 비서가 무대 뒤에서 모든 것을 조정하여 통합된 결과를 만들어냅니다.
Zapier나 Make를 사용하는 것과 어떻게 다른가요?
전통적인 자동화 플랫폼은 워크플로우 (Workflows)를 수동으로 설계, 유지 관리 및 업데이트해야 합니다. 지속적인 문맥 (Persistent context)을 유지하는 에이전트의 경우, 연결은 콘텐츠를 이해함으로써 자연스럽게 발생합니다. 에이전트는 당신이 말한 내용을 읽고, 그 의미를 이해하며, 출력을 적절한 곳으로 라우팅 (Routing)합니다. 구축하거나 유지 관리해야 할 플로우차트 (Flowchart)가 없습니다.
회의 후에 음성 메모를 보내면 어떻게 되나요?
어시스턴트는 오디오를 전사(Transcription)하고, 결정 사항과 실행 항목(Action items)을 추출하며, 이전 회의 및 미결 작업(Open tasks)과 교차 참조합니다. 그 다음 후속 이메일 초안을 작성하고, 다음 회의가 언급되었다면 캘린더 이벤트를 생성하며, 연결된 경우 작업 보드(Task boards)를 업데이트합니다. 사용자는 구조화된 요약, 승인 대기 중인 이메일 초안, 그리고 캘린더와 작업 목록이 최신 상태로 업데이트되었다는 확인을 받게 됩니다.
어시스턴트가 제 승인 없이 이메일을 보내거나 이벤트를 생성하나요?
아니요. 이메일, 캘린더 초대, 타인에게 보내는 메시지 등 외부로 나가는 모든 것은 사용자의 승인을 기다립니다. 어시스턴트가 제안하면 사용자가 결정합니다. 작업 보드 업데이트나 회의록 기록과 같은 내부 작업은 사용자의 작업 공간(Workspace)에만 영향을 미치기 때문에 자동으로 수행됩니다.
어시스턴트는 어떤 기술을 사용할지 어떻게 알 수 있나요?
기술 라우팅(Skill routing)은 오케스트레이션 계층(Orchestration layer)에서 처리됩니다. 사용자가 메시지를 보내면 어시스턴트는 사용자의 의도(Intent)를 해석하여 적절한 기능(Capability)을 선택합니다. 예를 들어 오디오의 경우 전사(Transcription), 사진의 경우 이미지 처리(Image processing), 일정 관리를 위한 캘린더(Calendar) 기능 등을 선택합니다. 각 기술은 고유한 리소스를 가진 격리된 환경(Isolated environment)에서 실행되며, 결과는 사용자에게 전달되기 전에 하나로 결합됩니다.
각 작업마다 별도로 비용이 청구되나요?
네. 비용 추적(Cost tracking) 시스템은 투명한 작업별 과금(Per-action billing) 방식을 통해 각 작업을 사용자의 지갑 잔액과 대조하여 기록합니다. 사용자는 각 단계에서 정확히 얼마의 비용이 발생했는지 확인할 수 있습니다. 숨겨진 수수료나 묶음 요금은 없으며, 어시스턴트가 실제로 수행한 작업에 대해서만 비용을 지불합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기