AI 에이전트를 1년 동안 프로덕션 환경에서 운영하며 배운 점

저는 논문을 읽고, 무언가를 만들고, 실제로 제품을 출시하는 엔지니어들과 대화하며 AI 분야에서 많은 시간을 보냅니다. 그리고 데모가 보여주는 모습과 실제 프로덕션 (Production) 시스템의 모습 사이에는 아무도 솔직하게 말하지 않는 격차가 존재합니다.

그래서 현재 상황이 실제로 어떤지에 대한 저의 솔직한 견해를 공유하고자 합니다.

우리가 AI 에이전트에 대해 이야기하는 방식의 문제점

지금은 모든 사람이 모든 것을 "에이전트 (Agent)"라고 부르고 있습니다. 도구를 호출하는 함수? 에이전트. 메모리가 있는 챗봇? 에이전트. 루프가 있는 스크립트? 에이전트.

이러한 의미의 희석은 단순히 언어적인 문제에 그치지 않습니다. 이는 실제 엔지니어링 실수를 유발합니다.

무엇을 만들고 있는지에 대한 정확한 정의가 없으면, 결국 단순한 파이프라인 (Pipeline)에는 과도한 엔지니어링 (Over-engineering)을 하고, 진정으로 복잡한 파이프라인에는 엔지니어링 부족 (Under-engineering)을 겪게 됩니다. 저는 팀들이 단일하게 잘 구조화된 프롬프트 (Prompt)만으로도 충분했을 워크플로우 (Workflow)에 "에이전트적 (Agentic)" 오케스트레이션 (Orchestration)을 추가하느라 몇 주를 허비하는 것을 보았습니다.

제가 계속해서 되돌아오는 정의는 다음과 같습니다: 에이전트는 단순한 지시 사항 (Instruction)이 아니라 목표 (Objective)를 가진 시스템입니다. 에이전트는 다음에 무엇을 할지 스스로 결정합니다. 실패를 처리합니다. 자신이 완료되었을 때를 압니다.

그 외의 모든 것은 그저 화려한 함수 호출 (Function call)일 뿐입니다.

🟢 만약 당신의 시스템이 매 단계마다 인간의 지시를 필요로 한다면, 그것은 에이전트가 아닙니다. 그것은 채팅 인터페이스 (Chat interface)입니다.

🔵 만약 당신의 시스템이 실패한 도구 호출 (Tool call)로부터 회복하여 다른 접근 방식을 시도할 수 있다면, 당신은 올바른 방향으로 가고 있는 것입니다.

✅ 만약 당신의 시스템이 목표를 하위 작업 (Subtasks)으로 분해하고 이를 위임 (Delegate)할 수 있다면, 그것이 진짜 에이전트입니다.

현재 프로덕션 환경에서 실제로 일어나고 있는 일

제가 팔로우하고 대화하는 팀들로부터 얻은 솔직한 모습은 다음과 같습니다:

대부분의 실제 에이전트 배포는 좁은 범위에 국한되어 있습니다. 그것들은 한 가지 일을 잘 수행합니다. 고객 지원 분류 (Triage), 문서 추출 (Document extraction), 특정 코드베이스에 대한 코드 리뷰 (Code review). 그것들은 범용 추론 엔진 (General-purpose reasoning engines)이 아닙니다. 그것들은 결정 계층 (Decision layer)에 어느 정도의 지능을 갖춘 목적 기반 파이프라인 (Purpose-built pipelines)입니다.

좋은 결과를 얻고 있는 팀들은 최신 모델 출시를 쫓아다니지 않습니다. 그들은 다음 사항에 집착합니다:

☑️ 도구 설계 (Tool design) -- 에이전트가 실제로 무엇을 호출할 수 있는지, 그리고 인터페이스 (Interface)가 얼마나 깔끔한지

☑️ 실패 처리 (Failure handling) -- 도구가 유용한 정보를 아무것도 반환하지 않을 때 어떤 일이 발생하는가

☑️ 관측 가능성 (Observability) -- 에이전트가 왜 그런 결정을 내렸는지 정확하게 추적할 수 있는가

나쁜 결과를 얻고 있는 팀들은 GPT-4를 최신 프론티어 모델 (Frontier model)로 교체하기만 하고, 다른 어떤 것도 변경하지 않은 채 다른 동작을 기대하는 팀들입니다.

최근 계속해서 눈에 띄는 내용이 있습니다: Google이 25년 만에 처음으로 검색창을 재설계했습니다 — 이것이 여러분이 생각하는 것보다 더 중요한 이유 (VentureBeat AI). 4분의 1세기 동안, Google 검색창은 컴퓨팅 분야에서 가장 인지도가 높은 인터페이스 중 하나였습니다: 얇은 흰색 직사각형, 깜빡이는 커서, 몇 개의 입력된 단어, 그리고 목록...

읽어볼 만한 가치가 있는 글: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think

최근 계속해서 눈에 띄는 내용이 있습니다: Railway, AI 네이티브 클라우드 인프라로 AWS에 도전하기 위해 1억 달러 확보 (VentureBeat AI). 마케팅에 단 1달러도 쓰지 않고 조용히 200만 명의 개발자를 모은 샌프란시스코 기반의 클라우드 플랫폼인 Railway는 목요일에 1억 달러를 조달했다고 발표했습니다...

읽어볼 만한 가치가 있는 글: https://venturebeat.com/infrastructure/railway-secures-usd100-million-to-challenge-aws-with-ai-native-cloud

최근 계속해서 눈에 띄는 내용이 있습니다: Claude Code는 한 달에 최대 200달러가 듭니다. Goose는 동일한 기능을 무료로 제공합니다. (VentureBeat AI). 인공지능 코딩 혁명에는 함정이 있습니다: 바로 비용이 많이 든다는 점입니다. Anthropic의 터미널 기반 AI 에이전트로 코드를 작성, 디버깅 및 배포할 수 있는 Claude Code는...

읽어볼 만한 가치가 있는 글: https://venturebeat.com/infrastructure/claude-code-costs-up-to-usd200-a-month-goose-does-the-same-thing-for-free

프레임워크 전쟁은 주의를 분산시킬 뿐입니다

LangChain, LangGraph, CrewAI, AutoGen, Semantic Kernel. 매달 새로운 프레임워크가 등장하고, 누군가는 기존 프레임워크가 왜 죽었는지에 대해 글을 씁니다.

제가 실제로 생각하는 바는 이렇습니다. 프레임워크보다 중요한 것은 패턴입니다.

어떤 프레임워크를 사용하든 상관없이 계속 작동하는 패턴들은 다음과 같습니다:

✔️ 계획 후 실행 (Plan-then-execute). 계획을 생성하는 하나의 추론 (reasoning) 단계와 이를 따르는 별도의 실행 단계를 두십시오. 이 둘을 섞지 마세요.

✔️ 검색 (retrieval)과 추론 (reasoning)의 분리. 컨텍스트 (context)를 가져오는 것과 컨텍스트를 사용하는 것은 서로 다른 작업입니다. 이 둘을 혼동하는 시스템은 혼란에 빠집니다.

✔️ 명시적 핸드오프 (Explicit handoffs). 한 에이전트가 다른 에이전트에게 작업을 전달할 때, 핸드오프는 구조화되어야 하며 로그 (log)가 남아야 합니다. 프롬프트 (prompt)를 통해 전달되는 단순한 문자열이 되어서는 안 됩니다.

저는 세 가지 서로 다른 프레임워크에서 동일한 아키텍처 (architecture)를 재구축해 보았으며, 결과는 매번 비슷했습니다. 프레임워크는 비계 (scaffolding)일 뿐입니다. 아키텍처가 바로 건물입니다.

아무도 해결하지 못한 검색 문제

RAG (Retrieval-Augmented Generation)는 이제 표준입니다. 독점 데이터를 다루는 거의 모든 프로덕션 AI 시스템은 어떤 형태로든 이를 사용합니다. 하지만 튜토리얼에서 잘 다루지 않는 문제가 하나 있습니다.

청크 (chunk) 경계가 잘못되었다는 점입니다.

문서를 청크로 나누고 임베딩 (embedding)할 때, 여러분은 어떤 컨텍스트 조각들이 서로 연결되어 있는지에 대한 가정을 하게 됩니다. 이러한 가정은 종종 틀립니다. 이전 단락의 맥락 속에서만 의미가 있는 단락이 단독으로 검색되면, 모델은 누락된 컨텍스트에 대해 환각 (hallucination)을 일으킵니다.

🟢 더 나은 청킹 (chunking) 전략이 도움이 됩니다. 오버래핑 윈도우 (Overlapping windows), 시맨틱 청킹 (semantic chunking), 부모 문서 검색 (parent-document retrieval) 등이 있습니다.

🔵 하지만 진정한 해결책은 저장하는 대상 자체를 재고하는 것입니다. 때로는 저장해야 할 올바른 대상이 가공되지 않은 텍스트 (raw text)가 아니라 정보의 구조화된 표현 (structured representation)일 수 있습니다.

✅ 만약 귀하의 RAG (Retrieval-Augmented Generation) 파이프라인이 기술적으로는 정확하지만 문맥적으로는 쓸모없는 결과를 반환하고 있다면, 그 문제는 임베딩 모델 (embedding model)이 아니라 거의 확실하게 청킹 (chunking) 또는 메타데이터 (metadata)에 있습니다.

내가 생각하는 이 모든 흐름의 방향

모델들은 계속해서 더 좋아질 것입니다. 컨텍스트 윈도우 (context windows)는 계속해서 확장될 것입니다. 토큰당 비용은 계속해서 낮아질 것입니다.

그 어떤 것도 근본적인 엔지니어링 과제를 바꾸지는 못합니다. 바로 당신이 지켜보고 있지 않을 때도 올바르게 작동한다고 신뢰할 수 있는 시스템을 구축하는 것입니다.

그것이 바로 해결할 가치가 있는 문제입니다. 벤치마크 (benchmarks)를 쫓는 것이 아니라, 거버넌스 (governance), 관측 가능성 (observability), 그리고 신뢰할 수 있는 도구 사용 (reliable tool use)에 집중하는 것입니다.

2년 뒤에 중요해질 엔지니어는 다른 엔지니어들이 유지보수하고 신뢰할 수 있는 AI 시스템을 구축할 수 있는 사람입니다. 이는 파인튜닝 (fine-tuning)이나 프롬프트 엔지니어링 (prompt engineering)과는 다른 기술 스택입니다.

이는 모델 연구 (model research)보다는 시스템 설계 (systems design)에 더 가깝습니다.

이 내용 중 귀하가 구축하고 있는 것과 공명하는 부분이 있거나, 혹은 완전히 다른 의견이 있다면 듣고 싶습니다. 댓글로 귀하의 경험을 남겨주세요. 이 분야의 흥미로운 대화는 기조 연설 (keynotes)에서 이루어지는 것이 아니라, 무엇이 실제로 작동하는지에 대해 사람들이 솔직하게 이야기하는 스레드 (threads)에서 이루어집니다.