대부분의 AI 에이전트는 실제 운영 환경에 도입되지 않았습니다. 무엇이 효과적인가에 대하여.

널리 공유되는 한 설문조사에 따르면 기업의 42%가 이미 운영 환경(production)에서 AI 에이전트를 실행하고 있다고 합니다. 하지만 이 분야에서 가장 엄격한 출처인 Stanford의 2026 AI Index는 실제 자율 에이전트(autonomous-agent) 배포가 거의 모든 비즈니스 기능에서 여전히 한 자릿수 수준에 머물러 있다고 말합니다. 두 수치 모두 올해 발표되었으며 모두 근거가 충분합니다. 그리고 이 두 수치 사이의 간극이 바로 현재 AI 에이전트에 관한 거의 모든 잘못된 결정이 내려지고 있는 지점입니다. 만약 당신이 2026년 중반의 에이전트에 대해 단 한 가지만 기억해야 한다면, 이것을 기억하십시오. 기술은 배포 수치가 시사하는 것보다 훨씬 더 유능하며, 그 격차는 지능의 문제가 아닙니다. 그것은 신뢰(trust), 범위(scope), 그리고 에이전트가 틀렸을 때 누군가가 이를 식별할 수 있는지의 문제입니다.

저는 생업으로 에이전트 시스템을 구축하며, 고객들이 에이전트 프로젝트를 진행하지 않도록 설득하는 데 프로젝트를 진행하는 시간만큼이나 많은 시간을 보냅니다. 도구가 나쁘기 때문이 아닙니다. "이 작업에 자율 에이전트를 투입해야 할까요?"라는 질문에 대한 정직한 답변은 대개 "이 특정 부분에는 그렇지만, 나머지 부분에는 아직 아닙니다"이기 때문입니다. 시장은 과장(hype)과 반발(backlash)로 소란스럽지만, 진실은 그 어느 쪽보다 덜 만족스럽습니다. 여기 제가 실제로 믿고 있는 버전과 이를 뒷받침하는 수치들이 있습니다.

수치는 누구에게 묻느냐에 따라 전적으로 달라집니다

에이전트 도입 데이터를 읽을 때 저지르는 가장 큰 실수는 "배포(deploying)", "운영 환경에 있음(in production)", "확장(scaling)", 그리고 "가치 전달(delivering value)"을 같은 단어로 취급하는 것입니다. 이들은 서로 다른 정의를 바탕으로, 서로 다른 집단을 대상으로, 서로 다른 사람들에 의해 측정됩니다.

42%라는 헤드라인 수치는 벤처 캐피털인 Mayfield가 지난 1월 자체 네트워크 내 266명의 기술 경영진(senior technology executives)을 대상으로 조사한 결과에서 나왔습니다. 이는 실제 신호이긴 하지만, 관대한 질문에 답하는 우호적인 집단이기도 합니다. 더 까다로운 방법론으로 넘어가면 수치는 급격히 떨어집니다. McKinsey의 2025년 말 State of AI 보고서에 따르면, 에이전트 시스템(agentic system)을 어딘가에서 확장(scaling)하고 있는 조직은 약 23%였으나, 실질적인 가치(tangible value)를 창출할 정도로 에이전트를 확장하는 조직은 10% 미만이었습니다. 400페이지가 넘는 분량이며 제가 아는 가장 갈등이 적은 출처인 Stanford의 AI Index는, 거의 모든 기능 분야에서 진정한 자율 에이전트(autonomous-agent) 배포가 한 자릿수(single digits)에 머물러 있다고 밝히고 있습니다. 파일럿(pilot)과 프로덕션(production) 사이의 간극을 일컫는 업계의 반복적인 용어는 "파일럿 연옥(pilot purgatory)"이며, 대부분의 기업이 그곳에 머물러 있습니다.

이 수치들을 정직하게 조정해 보면 회의론자에게도 방어할 수 있는 그림이 그려집니다. 대기업들 사이에서는 명백한 다수가 실험 중이며, 10%에서 30% 사이의 기업이 최소 하나 이상의 에이전트를 실제로 프로덕션 단계에서 운영하고 있고, 수익(bottom line)에 영향을 미칠 정도의 규모로 에이전트를 실행하는 기업은 15%를 훨씬 밑돕니다. 낙관적인 Mayfield의 데이터조차 단서를 포함하고 있습니다. 조사 대상 경영진의 84%가 보안(security)과 컴플라이언스(compliance)를 타협할 수 없는 요소로 꼽았지만, 60%는 초기 단계이거나 공식적인 AI 거버넌스(AI governance)가 없음을 인정했으며, 모델 품질(model quality)이 아닌 데이터 준비성(data readiness)을 첫 번째 장애물로 지목했습니다. 조직이 준비되기 전에 에이전트가 먼저 준비된 것입니다.

에이전트는 실제 사무 업무의 약 3분의 1을 완료합니다

깨끗한 벤치마크 (benchmarks) 대신 현실적인 업무로 에이전트를 측정하면, 능력의 격차는 구체적으로 드러납니다. Carnegie Mellon은 소프트웨어, 금융, 인사(HR) 및 행정 전반에 걸쳐 175개의 다단계 작업(multi-step tasks)을 수행하며 기업이 실제로 사용하는 도구들과 연결된 시뮬레이션 기업인 TheAgentCompany를 구축했습니다. 가장 뛰어난 프런티어 모델 (frontier model)은 작업당 약 4달러의 비용으로 작업의 약 30%를 즉시 완료했으며, 부분 점수를 포함하면 40%를 약간 밑도는 수준이었습니다. 나머지는 틀리거나, 포기하거나, 혹은 가장 결정적으로, 속임수를 썼습니다. 연구진은 에이전트가 "작업의 어려운 부분을 생략하는 가짜 지름길을 만드는 것"을 관찰했는데, 이는 기업이 가장 두려워해야 할 단 하나의 실패 모드(failure mode)입니다. 왜냐하면 성공한 것처럼 보이다가 결국 성공이 아니게 되기 때문입니다.

능력 또한 직관을 거스르는 방식으로 들쭉날쭉합니다. 수학 올림피아드에서 금메달 점수를 받는 동일한 모델이 아날로그 시계를 정확하게 읽는 확률은 약 절반에 불과합니다. 환각 (Hallucination)은 여러분이 읽은 것이 무엇이든 단일한 비율로 해결된 문제가 아닙니다. 한 2026년 평가에서 26개의 프런티어 모델을 대상으로 조사한 결과, 환각은 테스트에 따라 22%에서 94%까지 나타났으며, 질문이 잘못된 가정을 치켜세우도록 구성될 경우 정확도는 급격히 무너집니다. 현재 AI가 조작한 법률 인용구가 포함된 1,400건 이상의 법원 판례 데이터베이스가 추적되고 있습니다. 이 모든 것이 에이전트가 쓸모없다는 뜻은 아닙니다. 이는 에이전트의 실패가 인간이 예상하지 못한 지점에서 발생한다는 것을 의미하며, 이것이 바로 감독되지 않은 배포 (unsupervised deployment)가 잘못되는 정확한 이유입니다.

쉬운 영어로 내린 결론은 그 어떤 벤치마크보다 유용합니다. 에이전트는 작업이 끝난 후 검토될 수 있는, 제한적이고 도구 중심적인 작업에서는 오늘날 신뢰할 수 있습니다. 하지만 개방형 판단, 사진 찍은 송장들이 뒤섞인 더러운 현실 세계의 입력값, 그리고 체크포인트가 없는 장기적인 목표에서는 신뢰할 수 없습니다. 2026년의 기술은 가장 똑똑한 모델을 고르는 것이 아닙니다. 이 두 가지 범주의 업무를 구분해내는 것입니다.

에이전트 프로젝트의 40% 이상이 취소될 이유

Gartner는 3,400명 이상의 기업 리더를 대상으로 설문 조사를 실시했으며, 2027년 말까지 에이전트형 AI (Agentic AI) 프로젝트의 40% 이상이 취소될 것이라고 예측합니다. 흥미로운 점은 그 원인인데, 이는 거의 결코 "모델이 충분히 똑똑하지 않아서"가 아니라는 것입니다. 명시된 이유로는 아무도 예산에 반영하지 않은 비용의 급증, 경영진이 수익률을 물었을 때 방어하기에는 너무 모호한 비즈니스 가치, 에이전트를 고객 데이터 근처에 두기에는 너무 취약한 리스크 제어 (Risk controls), 그리고 챗봇이 에이전트 가면을 쓰고 있는 상태를 일컫는 Gartner 자체 용어인 상당한 수준의 "에이전트 워싱 (Agent-washing)" 등이 있습니다. 이러한 실패는 기술적 실패가 아니라 유스케이스 (Use-case) 선택의 오류입니다.

여기서 비용은 가장 조용한 살인자이며, 설계 방식과 결합하여 문제를 악화시킵니다. 어려운 문제에 직면했을 때의 본능은 에이전트 군단을 투입하는 것이지만, Princeton 연구진은 동일한 도구가 주어졌을 때 단일 에이전트가 작업의 64%에서 멀티 에이전트 (Multi-agent) 설정을 대등하게 수행하거나 능가한다는 것을 발견했습니다. 반면 멀티 에이전트 버전은 약 2포인트의 추가 정확도를 얻기 위해 토큰을 대략 2~~3배 더 소모했습니다. 에이전트형 시스템은 이미 작업당 10~~20회의 모델 호출을 수행하며, 이것이 바로 AI 비용 역설 (AI cost paradox) 뒤에 숨겨진 역학입니다. 즉, 루프 안에 추가되는 모든 에이전트가 절감된 비용을 써버리기 때문에, 토큰당 가격은 계속 떨어지는데 청구 금액은 계속 올라가는 것입니다. 우아함을 위해 채택한 멀티 에이전트 아키텍처 (Multi-agent architecture)가 프로젝트 전체를 취소하게 만드는 비용 항목으로 조용히 변할 수 있습니다.

병목 현상은 지능이 아니라 신뢰입니다

능력(capability)이 제약 사항이 아니라는 가장 명확한 증거는 에이전트가 확실히 작동하는 단 하나의 카테고리, 즉 코드 작성(writing code)에서 나타납니다. Anthropic의 Claude Code는 2월까지 연간 실행 속도(annualized run-rate)가 25억 달러를 넘어섰으며, 이는 올해 초 이후 두 배 이상 증가한 수치로, 현재 기업(enterprise) 매출이 전체의 절반 이상을 차지합니다. Cursor는 2월에 연간 매출 20억 달러를 돌파했고 4월에는 약 30억 달러에 도달했습니다. OpenAI의 Codex는 주간 사용자 수가 약 400만 명의 개발자를 넘어섰습니다. 이것들은 파일럿 프로젝트가 아닙니다. 이것들은 제가 지금까지 지켜본 소프트웨어 카테고리 중 가장 빠르게 성장하고 있으며, 한 가지 지루한 이유로 인해 제대로 작동합니다. 바로 코드에는 테스트(tests)가 있다는 점입니다. 마지막 단계의 검증이 내장되어 있기 때문에 위임(delegation)이 안전합니다.

그럼에도 불구하고, 여기서조차 신뢰는 능력에 뒤처져 있습니다. 개발자들이 어떻게 일하는지에 대한 Anthropic 자체의 2026년 분석에 따르면, 개발자들은 현재 업무의 약 60%에서 AI를 사용하고 있지만, 완전히 위임하는 비율은 0~20%에 불과합니다. 한 관찰자는 이를 완벽하게 표현했습니다. 개발자들은 그 어느 때보다 공격적으로 이러한 도구들을 사용하고 있지만, 신뢰도는 그보다 낮다는 것입니다. 효과적이었던 대응책은 더 똑똑한 모델이 아니라 거버넌스(governance) 기능이었습니다. Claude Code는 별도의 분류기(classifier)를 사용하여 파일 작성 및 테스트 실행과 같은 안전한 작업은 자동으로 승인하는 반면, 대량 삭제와 같은 파괴적인 작업은 차단하는 "자동 모드(auto mode)"를 출시했습니다. 이것이 하나의 제품 결정에 담긴 2026년 중반의 핵심 교훈입니다. 에이전트가 운영 환경(production)에서 신뢰를 얻기 위해 더 똑똑해질 필요는 없었습니다. 대신 아키텍처(architecture) 상에 명시적으로 구현된, 인간 없이는 넘을 수 없는 경계(boundary)가 필요했습니다.

지금 실제로 자동화해야 할 것

비즈니스를 운영하며 실질적인 버전을 원하신다면, 제가 사용하는 의사결정 규칙은 다음과 같습니다. 에이전트 기반 작업(agentic task)이 좋은 후보가 되려면 경계가 명확하고(bounded), 도구 형태를 갖추었으며(tool-shaped), 저렴하게 검증 가능(cheaply verifiable)해야 합니다. 즉, 입력값은 예측 가능하고, 에이전트는 열린 판단(open judgment)보다는 정의된 도구를 통해 행동하며, 작업 완료 여부를 알려주는 명확한 최종 확인 절차가 있어야 합니다. 고객 지원 티켓의 분류 및 라우팅(triage and routing), 사람이 승인하는 답장 초안 작성, 구조화된 기록의 대조(reconciling), 스크리닝 및 일정 예약, 제어 가능한 시스템으로부터의 데이터 추출 및 요약: 이것들이 바로 실제로 배포 가능한 승리(wins)입니다. 이 작업들은 화려하지 않고 좁은 범위에 국한되어 있지만, 확실한 보상을 제공합니다.

감독되지 않는 에이전트에게 맡리지 말아야 할 작업은 이와 정반대입니다. 즉, 개방형 판단(open-ended judgment)이 필요하거나, 입력값이 지저분하거나 혼합되어 있거나, 되돌릴 수 없는 행동(irreversible actions)을 수행하거나, 체크포인트가 없는 긴 호흡(long horizon)이 필요한 모든 작업입니다. Gartner 데이터에서 취소된 대부분의 프로젝트가 목표로 했던 지점 또한 바로 이곳이며, 가장 흔한 에이전트 함정이 존재하는 곳이기도 합니다. 잘못된 모델을 선택하는 것이 아니라, 잘못된 작업을 선택하는 것이 실수입니다.

작업이 적합할 때, 살아남는 프로젝트와 그렇지 못한 40%의 프로젝트를 가르는 플레이북(playbook)은 모든 진지한 출처에서 일관되게 나타납니다. 먼저 프로세스를 수동 실행 지침서(manual runbook)로 작성하십시오. 만약 신입 사원이 질문 없이 따라 할 수 있는 단계를 작성할 수 없다면, 아직 자동화할 준비가 되지 않은 것입니다. 범위를 하나의 가치 높은 워크플로우(workflow)와 최대 2~3개의 에이전트로 좁히십시오. 인간 참여(human-in-the-loop)를 사후 변명이 아닌 설계 속성(design property)으로 만드십시오. 에이전트는 명확한 사례를 처리하고, 모호하거나 신뢰도가 낮거나 위험도가 높은 사례는 클릭 한 번으로 검토할 수 있는 큐(review queue)로 라우팅합니다. 에이전트의 상태, 즉 무엇이 사실이고 무엇이 아직 미결 상태인지에 대한 기억을 에이전트의 컨텍스트 윈도우(context window)가 아닌, 직접 소유한 데이터베이스에 보관하십시오. 이것은 운영 환경에서 견고하게 버티는 실제 AI 자동화의 이면에 있는 것과 동일한 규율이며, 의도적으로 지루하게 설계된 것입니다.

이것이 의미하는 바

Gartner가 예측하는 구조조정(shakeout)은 거품이 터지는 것이 아니라, 해당 카테고리가 성숙해지는 과정입니다. 사라질 프로젝트들은 대부분 잘못된 업무를 목표로 했거나, 모호한 수익률을 내세워 판매되었거나, 에이전트가 넘을 수 없는 경계 없이 구축된 것들입니다. 살아남는 프로젝트들은 데모(demo)와 비교하면 인상적이지 않아 보일 것입니다. 즉, 하나의 잘 정의된 워크플로우(workflow)를 단일 에이전트가 담당하고, 모든 고위험 관문(gate)에는 인간이 배치되어 있으며, 성과를 보여주는 수치가 존재하는 형태입니다. 이것이 실제로 "운영 환경(in production)"에 도입된 모습이며, 에이전트의 역량은 엄청난 데 반해 실제 도입 수치가 한 자릿수에 머물러 있는 이유입니다.

저의 예측은, 향후 1년 동안 모든 AI 에이전트 관련 대화에서 가장 가치 있는 질문은 "모델이 얼마나 똑똑한가"가 아닐 것이라는 점입니다. 대신 "이 에이전트가 할 수 없는 것은 무엇인가, 그리고 에이전트가 그 한계에 부딪혔을 때 인간은 정확히 어디에 위치해야 하는가"가 될 것입니다. 이 질문에 제대로 답할 수 있다면 당신은 실질적인 가치를 얻는 소수의 그룹에 속하게 될 것입니다. 이 질문을 건너뛴다면, 당신은 Gartner 분석가가 이미 취소된 것으로 간주한 파일럿(pilot) 프로젝트에 자금을 대고 있는 셈입니다. 에이전트는 대부분의 기업이 활용하고 있는 것보다 더 많은 것을 할 준비가 되어 있으며, 목소리 큰 사람들이 판매하는 것보다는 훨씬 적은 것을 수행합니다. 이제 과제는 무엇이 진짜인지 구별하는 법을 배우는 것입니다.

작성자: Matthias Meyer (StudioMeyer 소속). StudioMeyer는 마요르카에 위치한 웹 및 AI 에이전시로, 중소기업을 위한 MCP 서버, 에이전트 플릿(agent fleets) 및 AI 제품을 구축하고 있습니다. 이 기사는 StudioMeyer 블로그에 원래 게시되었습니다.