에이전틱 엔지니어링 (Agentic Engineering): AI 에이전트 군집이 소프트웨어 엔지니어링을 재정의하는 방법

핵심 요약 (Key Takeaways)

에이전틱 엔지니어링 (Agentic Engineering)이란 무엇인가?
에이전틱 엔지니어링은 AI 에이전트들이 디지털 팀원으로서 역할을 수행하는 다중 에이전트 조정 모델 (multi-agent coordination model)입니다. 각 에이전트는 정의된 역할, 공유 메모리 (shared memory), 그리고 공통의 관찰 가능성 계층 (observability layer)을 가지며, 단순히 코드를 더 빠르게 생성하는 것을 넘어 소프트웨어를 전체 전달 파이프라인 (delivery pipeline)을 통해 이동시킵니다.

다중 에이전트 시스템 (multi-agent systems)은 소프트웨어 전달에서 어떤 결과를 만들어낼 수 있는가?
20개 이상의 디버깅 워크플로우 (debugging workflows) 파일럿 테스트 결과, 조정된 에이전트 실행은 과거 기준점과 비교했을 때 근본 원인 파악 시간 (time-to-root-cause)을 93% 단축했으며, 단 한 달 동안 512개 세션에 걸쳐 200시간 이상의 엔지니어링 시간을 절감했습니다. 개발 워크플로우는 실행 시간이 65% 감소하는 모습을 보였으며, 가장 큰 이점은 코드 생성 (code generation)이 아닌 다운스트림 테스트 (downstream testing)를 압축하는 데서 발생했습니다.

에이전틱 엔지니어링은 Codex나 Claude와 같은 AI 코딩 에이전트와 어떻게 다른가?
AI 코딩 에이전트는 단일 사용자 주도 세션 내에서 의도를 코드로 변환하는 데 탁월합니다. 에이전틱 엔지니어링은 더 높은 수준의 추상화 (abstraction) 단계에서 작동합니다. 즉, 이는 팀 간 워크플로우를 오케스트레이션 (orchestrate)하고, 에이전트 간의 장기 메모리 (long-term memory)를 유지하며, 전체 소프트웨어 전달 수명 주기 (software delivery lifecycle) 전반에 걸쳐 상태 (state)와 추적 가능성 (traceability)을 관리하는 제어 평면 (control plane)입니다. 이 둘은 경쟁 관계가 아닙니다. Codex와 같은 코딩 에이전트는 추론 및 코드 생성 엔진으로서 워커 에이전트 (worker agents) 내부에서 실행될 수 있습니다.

이 글은 Cisco의 수석 소프트웨어 엔지니어 (디렉터)인 Renuka Kumar 박사와 Cisco의 엔지니어링 시니어 디렉터인 Prashanth Ramagopal의 기고문입니다. 이 블로그에 표현된 의견은 저자들의 견해이며 Cisco의 견해가 아닙니다.

소프트웨어 개발은 새로운 단계에 진입했습니다. 지능형 에이전트가 고립된 도구로서가 아니라, 실제 팀을 모방하는 조정된 엔티티 (coordinated entities)로서 작동하는 단계입니다. AI 도입이 가속화됨에 따라, 초점은 무엇이 가능한가에서

. 모든 소프트웨어 엔지니어링 단계—요구사항, 설계, 개발, 보안, 테스트, 배포 및 운영은 ~에 적합합니다

실제 현장에서 작동하는 방식

최소한 **부분적 자동화 (partial automation)**를 제공하며, 에이전트들이 교차 기능적으로 협업할 때는 **전체 엔드 투 엔드 오케스트레이션 (full end-to-end orchestration)**까지 지원할 수 있습니다. 이 경우 목표는 다음과 같이 변화합니다.

*“어떻게 하면 코드를 더 빨리 작성할 것인가?”*에서

*“어떻게 하면 소프트웨어를 시스템을 통해 더 빠르고 안전하게 이동시킬 것인가?”*로 말입니다. 우리는 다양한 에이전틱 프레임워크 (agentic frameworks)를 실험하며, 실제적이고 측정 가능한 임팩트를 전달하는 실용적인 패턴들을 식별했습니다.

이 블로그는 태스크 수준의 실행에서 시스템 수준의 협업으로 전환하도록 설계된 에이전틱 엔지니어링 (agentic engineering) 시스템을 설명합니다. 우리는 참조 아키텍처 (reference architecture)를 제안하며, LangSmith와 LangGraph를 포함한 LangChain의 도구 모음을 사용하여 구현된 멀티 에이전트 조정 프레임워크 (multi-agent coordinated framework)의 파일럿 평가를 제시합니다. 이 시스템은 “더 나은 코딩 AI”나 “더 나은 태스크 어시스턴트”가 아닙니다. 이 아키텍처는 엔드 투 엔드 소프트웨어 전달에 집중하며, 멀티 에이전트 조정을 위한 컨트롤 플레인 (control plane) 역할을 하도록 설계되었습니다.

실제 엔지니어링을 반영하는 에이전틱 엔지니어링

우리의 핵심 통찰은 간단합니다.

“가장 큰 변화는 단순히 더 나은 도구에서 오는 것이 아닙니다. 실제 팀을 반영하는 시스템에서 옵니다.”

에이전틱 엔지니어링의 핵심은 엔지니어링 팀이 소프트웨어를 계획, 실행 및 전달하는 방식을 반영하도록 설계된 지능형 에이전트들의 협업 시스템입니다. AI를 고립된 어시스턴트들의 집합으로 취급하는 대신, 이 프레임워크는 에이전트를 **팀원 (team members)**으로 모델링합니다. 각 에이전트는 정의된 책임, 공유된 컨텍스트 (context), 그리고 책무를 가지며, 가볍지만 강력한 리더십 레이어를 통해 조정됩니다.

이 시스템은 다음과 같은 능력을 갖춘 **멀티 에이전트 조정을 위한 네이티브 컨트롤 플레인 (native control plane)**을 제공합니다:

장기 실행 워크플로우 (long-lived workflows) 실행
팀 간 공유 가능한 에이전트 메모리 (agent memory) 유지
팀 경계를 넘어 이동할 수 있는 서로 다른 유형의 워크플로우들을 체인 (chain) 형태로 연결
에이전틱 워크플로우 (agentic workflows)에 새로운 팀원을 온보딩하기 위한 지식 공유 촉진
추적성 (traceability) 및 감사 가능성 (auditability)을 위한 에이전틱 방식으로 실행되는 워크플로우에 대한 글로벌 관측성 (global observability) 제공

아키텍처 (Architecture)

높은 수준에서 볼 때, 이 시스템은 독립적인 엔티티로 작동하거나 에이전트 군집 (swarm of agents) 내의 하나의 엔티티로 작동할 수 있는 느슨하게 결합된 (loosely coupled) 에이전트 시스템입니다. 우리 시스템은 확장이 가능하도록 조정될 수 있는 두 가지 상호 보완적인 역할로 구성됩니다:

워커 에이전트 (Worker Agents) – 이 에이전트들은 엔지니어링 팀의 개별 기여자 (individual contributors)에 대한 디지털 대응물로서 기능합니다. 이들은 개발, 테스트, 디버깅 또는 운영과 같은 엔지니어링 의도 (engineering intent)를 기반으로 작업을 계획하고 실행하며, 잘 정의된 경계 내에서 자율적으로 작동합니다. 팀의 성숙도와 복잡성에 따라, 배포에는 단일 워커 에이전트가 포함될 수도 있고 **동적으로 조정되는 워커 에이전트 군집 (dynamically coordinated swarm of worker agents)**이 포함될 수도 있습니다.

워커 에이전트는 다음과 같은 능력을 갖추고 있습니다:

추론 모델 (reasoning model)을 사용하여 사용자 의도를 해석하고 이를 실행 가능한 계획으로 변환합니다.
소스 저장소 (source repositories), 이슈 트래커 (issue trackers), 로그와 같은 내부 지식 베이스 등 기록 시스템 (systems of record)으로부터 필요한 컨텍스트 (context)를 수집합니다.
도구 (tools), 코딩 에이전트 (coding agents), 또는 커스텀/하위 에이전트 (custom/sub agents)를 통해 워크플로우를 실행합니다.
정확성과 완전성을 보장하기 위해 결과를 검증합니다.
투명성, 책임성 및 추적성을 보장하기 위해 계획, 작업 및 결과를 리더십 계층 (leadership layer)에 보고합니다.

워커 에이전트는 의도적으로 느슨하게 결합되어 있어, 수평적 확장 (scale horizontally)이 가능하고, 새로운 워크플로우에 적응할 수 있으며, 필요한 경우 군집 내의 다른 에이전트에게 작업을 위임할 수 있습니다.

리더 에이전트 (Leader Agent) – 이 에이전트들은 프로젝트 리더의 디지털 아날로그 역할을 합니다. 이들은 에이전트 군집 전체를 조정, 관리하며 공유된 기능과 가시성을 제공합니다. 리더 에이전트는 다음과 같은 기능을 제공합니다:

베스트 프랙티스 (Best Practices)를 표준화하고 온보딩 마찰 (Onboarding Friction)을 획기적으로 낮추는 공유 프롬프트 및 워크플로우 라이브러리 (Workflow Library).
승인된 기능을 워커 에이전트 (Worker Agents)에게 일관되고 안전한 방식으로 노출하는 공통 도구 게이트웨이 (Tool Gateway).
군집 (Swarm)을 위한 장기 메모리 (Long-term Memory)로, 시간이 지남에 따라 학습과 지속적인 개선을 가능하게 함.
에이전트의 활동, 결정 및 결과에 대한 전역적 관찰 가능성 (Global Observability)을 제공하여 시스템 동작과 성능에 대한 통찰력을 제공함.
에이전트가 무엇을 생산하는지뿐만 아니라, 언제 그리고 어떻게 행동할지를 결정하는 오케스트레이션 (Orchestration).
실행 (Execution)과 조정 (Coordination)을 분리함으로써, 프레임워크는 규모가 커져도 일관성을 유지하면서 말단에서의 자율성을 보존합니다.

아래 다이어그램은 에이전틱 엔지니어링 (Agentic Engineering) 시스템의 참조 아키텍처 (Reference Architecture)를 보여줍니다. 모든 워커 에이전트는 A2A 프로토콜을 통해 통신합니다. 하지만 워커 에이전트는 MCP 래퍼 (Wrapper)를 통해 A2A를 지원하지 않는 에이전트와도 상호작용할 수 있습니다. 시스템과 상호작용하는 엔지니어는 IDE, CLI, 또는 GitHub이나 Jira 액션을 통한 외부 트리거와 같이 선호하는 인터페이스를 통해 의도 (Intent)를 표현합니다. 이 시스템에서 워크플로우는 팀의 생산성 요구 사항을 충족하도록 맞춤 설정할 수 있습니다.

여러 에이전틱 프레임워크를 평가한 결과, 우리는 에이전틱 엔지니어링의 프로덕션 요구 사항에 얼마나 부합하는지를 기준으로 이번 연구를 위해 LangChain의 프레임워크를 선택했습니다. 이는 상태 유지 (Stateful), 협업 가능 (Collaborative), 그리고 거버넌스 가능 (Governable)한 에이전트 시스템을 위한 실행 모델이며, 실제 엔지니어링 팀을 모사하는 AI 시스템을 오케스트레이션하는 데 적합합니다. 우리는 장기 상태 (Long-term State)를 저장하기 위해 LangMem 추상화 (Abstractions)를 사용하며, 실행 트레이스 (Execution Traces)를 기록하기 위해 LangSmith를 사용하여 에이전틱 워크플로우와 결과에 대한 엔드 투 엔드 추적 가능성 (Traceability), 텔레메트리 (Telemetry), 그리고 시스템 전반의 가시성을 확보합니다.

거시적 아키텍처 관점 (Macro Architectural View)

다음은 이러한 에이전틱 시스템 (Agentic Systems)이 어떻게 팀 간의 경계를 넘나들 수 있는지에 대한 참조 다이어그램입니다. 에이전트 리더 (Agent leaders)는 다른 팀의 리더들과 협업할 수 있습니다. 예를 들어, 제품 관리 (Product Management) 팀에서 전달된 제품 요구사항은 엔지니어링 팀 리더에 의해 계획 수립 및 요구사항 추출을 수행할 적절한 워커 에이전트 군집 (Worker agent swarm)으로 라우팅될 수 있습니다.

LangChain을 활용한 참조 기술 구현

이 구현은 LangChain 프레임워크 제품군이 제공하는 세 가지 핵심 추상화 계층을 통합하고 평가합니다. 즉, LangGraph (제어 가능한 에이전트 오케스트레이션 (Agent orchestration)용), LangSmith (에이전트 관측성 (Observability) 및 평가 (Evals)용), 그리고 LangMem (장기 메모리 (Long-term memory)를 통해 에이전트가 학습하고 개선하도록 돕는 라이브러리)을 활용합니다. LangGraph의 핵심 추상화인 상태 저장 노드 그래프 (Graph of stateful nodes)는 에이전트가 생성한 계획을 기반으로 맞춤형 워크플로 (Workflows)를 구축할 수 있게 합니다. 이번 평가는 에이전틱 엔지니어링 (Agentic Engineering)을 실험적 환경에서 안정적인 운영 모델 (Production-ready operating models)로 전환하기 위한 다음과 같은 기술적 특성에 초점을 맞추었습니다.

단계, 에이전트 및 재시도 (Retries) 과정 전반에 걸쳐 유지되는 상태 관리 (State management) 및 체크포인팅 (Checkpointing) 기능.
누가, 언제, 무엇을, 왜 결정했는지를 추적할 수 있는 감사 추적 (Audit trails) 제공을 통해 사후 분석 (Post-hoc analysis) 및 지속적인 개선 지원.
외부 기록 시스템 (Systems of record) 및 MCP 스타일의 도구 게이트웨이 (Tool gateways)와의 인터페이스 호환성.
운영 리스크를 줄이기 위해 에이전트가 승인된 작업만을 수행하도록 보장하는 결정론적 실행 모델 (Deterministic execution model).
서로 다른 에이전틱 통신 프로토콜 및 다른 프레임워크를 사용하여 구축된 에이전트와의 상호 운용성 (Interoperability).

LangGraph를 활용한 에이전틱 실행 보조

우리는 서로 다른 팀에 걸쳐 있는 워커 에이전트 (Worker Agent)를 통해 기술적 문제를 디버깅하거나, 개발을 위해 codex 또는 claude와 같은 AI 코딩 에이전트 (AI Coding Agent)를 워커 에이전트와 협업하도록 활용하는 등 에이전트 간 통신 (Agent-to-Agent Communication)이 포함된 여러 시나리오를 탐구했습니다. 아래 다이어그램은 후자의 시나리오에 대한 예시를 상세히 보여줍니다. 이 다이어그램은 자율적 로직 (Autonomous Logic)이 상주하는 워커 에이전트와 AI 코딩 에이전트 사이의 상호작용을 묘사합니다. 워커 에이전트 내부의 자율적 로직은 대부분의 에이전틱 워크플로 (Agentic Workflows)에 적용 가능한 논리적인 4단계 진행 과정을 따릅니다. 이 유스케이스 (Use Case)는 워커 에이전트가 소스 코드의 컨텍스트를 넘어 확장된 컨텍스트를 검색하고, 다른 에이전트에게 알림을 보내며, 에이전틱 활동을 추적 (Trace)하는 데 어떻게 사용될 수 있는지를 보여줍니다.

의도 분석 (Intent Analysis): IDE에 엔지니어링 의도를 자연어로 입력하면, 해당 요청이 워커 에이전트로 전송됩니다. 이 경우 에이전트의 워크플로는 LangGraph를 사용하여 오케스트레이션 (Orchestrated)되며, 의도를 분석하고 MCP 도구 (MCP Tools)를 통해 관련 컨텍스트를 검색합니다.

계획 및 알림 (Planning and Notification): 컨텍스트가 설정되면, 에이전트는 구조화된 다단계 계획(다이어그램의 Step 1부터 Step N까지)을 생성합니다. 이 계획은 통신 채널(예: Slack, Teams 또는 Webex)을 통해 엔지니어에게 알림으로 전달됩니다.

실행 및 추적 (Execution and Tracking): 그 후 계획은 IDE 내의 AI 코딩 에이전트와 협력하여 한 번에 한 단계씩 실행됩니다. 에이전트는 LangGraph의 체크포인팅 (Checkpointing) 및 상태 추적 (State Tracking) 메커니즘을 활용하여 실행 상태를 추적합니다.

검증 및 종료 (Validation & Closure): 마지막 단계에서 실행이 완료되면, 워커 에이전트는 실행된 계획이 메모리에 체크포인트로 저장된 실행 상태와 일치하는지 검증함으로써 루프를 종료합니다. 결과는 엔지니어의 통신 채널에 알림으로 전달되며, 장기 상태 (Long-term State)로서 LangMem에 저장됩니다.

AI 코딩 에이전트가 네이티브 a2a (agent-to-agent) 기능을 지원하지 않았기 때문에, 우리는 AI 코딩 에이전트의 요청을 워커 에이전트 (worker agent)로 라우팅하는 MCP 어댑터 도구를 구축했습니다. 이러한 접근 방식은 시스템을 IDE-agnostic (IDE에 구애받지 않는 방식)으로 만듭니다.

파일럿 연구를 통한 발견 및 관찰 사항

에이전틱 엔지니어링 (Agentic Engineering)의 실질적인 영향을 평가하기 위해, 우리는 이 프레임워크를 실제 개발, 테스트 및 디버깅 워크플로 (workflows)에 적용했습니다. 개별 작업을 최적화하는 대신, 우리는 에이전트들이 협업할 때 품질 저하 없이 처리량 (throughput)이 얼마나 개선되는지를 측정했으며, 이를 위해 최소 두 개 이상의 에이전트 간의 조정 (coordination)이 필요한 워크플로를 선정했습니다. 개발 및 디버그 워크플로에 대한 기준점 (baseline)을 마련하기 위해, 우리는 엔지니어링 팀들이 모여 사용 사례 (use cases) 목록을 작성하는 부트캠프를 진행했으며, 과거 데이터를 기반으로 에이전트 없이 해당 워크플로를 수행할 때 걸리는 시간을 계산했습니다. 우리는 수치를 보수적으로 보고하고 있으며, 실제 이득은 이보다 더 클 수 있습니다.

우리는 팀 간 분류 (cross-team triage) 및 근본 원인 분석 (root-cause analysis)을 포함하는 여러 디버깅 워크플로를 평가했으며, QE (Quality Engineering) 팀으로부터 독립적인 품질 평가를 받았습니다. 근본 원인 도달 시간 (time-to-root-cause)을 주요 지표로 사용하여 20개 이상의 워크플로를 대상으로 파일럿 테스트를 진행한 결과, 과거 디버그 시간 대비 전체적으로 93%의 감소를 보여주었습니다. 여러 팀 간 조사 작업이 에이전트의 조정된 실행을 통해 5분 이내에 완료되었으며, 독립적인 QE 평가를 통해 품질 저하가 측정되지 않음을 확인했습니다. 한 달 동안 70명의 고유 사용자가 생성한 총 512개의 디버그 세션 중에서, 우리는 교차 협업 에이전틱 워크플로를 활용함으로써 200시간 이상의 인적 자원 (man hours)을 절감했음을 계산했습니다.