Anthropic의 새로운 Agent Toolkit이 Claude의 기업용 신뢰성을 높이는 방법
요약
Anthropic이 Claude Managed Agents의 신뢰성과 성능을 높이기 위한 새로운 에이전트 툴킷을 출시했습니다. 자기 개선형 메모리인 'dreaming', 결과 기반 자기 수정인 'outcomes', 그리고 멀티 에이전트 오케스트레이션 기능을 통해 기업용 에이전트 구축의 난제를 해결합니다.
핵심 포인트
- Dreaming 기능을 통해 에이전트가 과거 세션을 성찰하고 메모리를 정제하여 장기적 자율성 확보
- Outcomes 기능을 통해 정의된 루브릭에 따라 에이전트의 결과물을 평가하고 자동 수정
- 멀티 에이전트 오케스트레이션으로 복잡한 작업을 전문 서브 에이전트에게 효율적으로 위임
- Harvey와 Wisedocs 등 실제 기업 사례에서 작업 완료율 향상 및 검토 시간 단축 증명
핵심 요약 (Key Takeaways)
- Anthropic은 Claude Managed Agents에 세 가지 새로운 기능을 추가했습니다: 자기 개선형 메모리를 위한 “dreaming”, 성공 기준을 정의하고 등급을 매기는 “outcomes”, 그리고 복잡한 작업을 전문 서브 에이전트(sub-agents)에게 위임하는 멀티 에이전트 오케스트레이션(multi-agent orchestration)입니다.
- 초기 도입 기업들은 구체적인 성과를 보고하고 있습니다: 법률 AI 기업인 Harvey는 “dreaming”을 구현한 후 작업 완료율이 약 6배 증가했으며, 의료 문서 검토 기업인 Wisedocs는 “outcomes”를 사용하여 검토 시간을 절반으로 단축했습니다.
- 새로운 어드바이저(advisor) 도구(현재 베타 버전)를 통해 Claude Sonnet 또는 Haiku 에이전트가 실행을 담당하는 동안 Claude Opus가 온디맨드(on-demand) 가이드를 제공합니다. 이를 통해 개발자는 단일 Messages API 요청 내에서 더 낮은 비용으로 Opus 수준에 근접한 결과물을 얻을 수 있습니다. Anthropic은 지금까지 빌더(builder)들에게 가장 관련성이 높은 업데이트 중 하나를 조용히 출시했습니다: Claude Managed Agents가 이제 자기 개선형 메모리, 결과 기반 자기 수정(outcome-based self-correction), 그리고 조정된 멀티 에이전트 워크플로우(multi-agent workflows)를 지원합니다. 장기적으로 안정적으로 실행되어야 하는 에이전트 시스템을 구축하는 팀에게, 이것은 단순한 점진적 개선이 아니라 에이전트를 대규모로 운영할 때 발생하는 가장 어려운 문제들을 직접적으로 해결하는 기능입니다.
Dreaming을 통한 자기 개선형 에이전트 워크플로우 설계
“Dreaming”은 Anthropic의 Claude Managed Agents가 과거 세션을 검토하고, 패턴을 식별하며, 실행 사이에 메모리를 정제할 수 있게 해줍니다. 이를 예정된 성찰(scheduled reflection)이라고 생각하면 됩니다: 에이전트는 자신의 이력을 분석하고, 무엇이 효과적이었는지 추출하며, 다음 세션이 시작되기 전에 메모리 저장소(memory store)를 업데이트합니다. 개발자는 이러한 메모리 업데이트를 자동으로 적용하거나 먼저 검토하도록 선택할 수 있으며, 이는 규제 환경에서 운영 중인 경우 매우 중요합니다.
Dreaming 기능을 활성화한 후 주의 깊게 살펴봐야 할 점은 반복적인 작업에서의 성능입니다. 법률 AI 기업인 Harvey는 이를 도입한 후 작업 완료율이 약 6배 상승했다고 보고했습니다. 이러한 성능 향상은 에이전트가 매번 처음부터 다시 시작하는 대신, 세션이 반복될 때마다 동일한 실수를 반복하지 않게 되면서 발생합니다. 요구 사항이 계속 변하는 동적인 환경에서 작동하는 에이전트에게 이 기능은 장기적 자율성 (long-horizon autonomy)을 이론이 아닌 실무로 구현할 수 있게 해주는 핵심 요소입니다.
이를 보완하는 “결과물 (outcomes)” 기능은 신뢰성에 대해 다른 관점을 제시합니다. 에이전트가 좋은 결과를 내기를 기대하는 대신, 무엇이 '좋은 결과'인지 정의하는 루브릭 (rubric, 평가 기준)을 작성합니다. 여기에는 어조, 필수 데이터 포인트, 길이, 구체적인 실행 단계 등이 포함되며, 전용 채점기 (grader)가 해당 루브릭에 따라 출력을 평가합니다. 만약 출력이 기준에 미치지 못하면, 채점기는 구체적인 피드백을 전달하고 에이전트는 이를 통과할 때까지 내용을 수정합니다. Anthropic은 이 접근 방식이 어려운 작업에서 표준적인 프롬프트 전용 (prompt-only) 방식보다 작업 성공률을 최대 10%포인트까지 높일 수 있다고 밝혔습니다. 의료 문서 검토를 수행하는 Wisedocs는 이 기능을 채택한 후 검토 시간을 절반으로 단축했습니다. 웹훅 (Webhooks)을 사용하면 이러한 결과물 완료 과정을 Slack 알림, 프로젝트 관리 트리거 등 사용자의 핸드오프 (handoff) 방식에 맞춰 다운스트림 (downstream) 도구에 직접 연결할 수 있습니다.
멀티 에이전트 시스템을 통한 복잡한 작업 오케스트레이션
멀티 에이전트 오케스트레이션 (Multi-agent orchestration)은 진정으로 복잡한 워크플로를 구축하려는 개발자들에게 아키텍처가 매우 흥미로워지는 지점입니다. 리드 에이전트 (lead agent)가 작업을 하위 작업 (sub-tasks)으로 분해하면, 각각 고유한 모델, 시스템 프롬프트 (system prompt) 및 도구 세트 (toolset)를 가진 전문 에이전트들에게 전달되며, 이들은 공유 파일 시스템 상에서 병렬로 실행됩니다. 리드 에이전트는 워크플로 중간에 상태를 확인할 수 있으며, 이벤트가 지속적이고 모든 에이전트가 자신의 작업 이력을 유지하기 때문에, 컨텍스트 (context)가 전달 지점에서 파편화되지 않고 전체 운영 과정에서 일관되게 유지됩니다.
실질적인 설계 문제는 워크플로(workflow)가 실제로 어디에서 깔끔하게 병렬화(parallelise)될 수 있는지를 식별하는 것입니다. 예를 들어, 연구 및 작성 워크플로는 연구 에이전트(research agent), 초안 작성 에이전트(drafting agent), 포맷팅 에이전트(formatting agent), 품질 검사 에이전트(quality-check agent)로 나뉘어 순차적(sequentially)이 아닌 동시에(concurrently) 실행될 수 있습니다. 각 전문가 에이전트는 작업의 특정 부분에 최적화되어 있으며, 이는 단일 에이전트에게 네 가지 역할을 모두 수행하며 컨텍스트 스위칭 (context-switch)을 하도록 요청하는 것보다 훨씬 효율적입니다. 만약 멀티 에이전트 파이프라인 (multi-agent pipelines)을 구축 중이며 사용 가능한 오케스트레이션 프레임워크 (orchestration frameworks)를 비교하고 싶다면, 이 글과 함께 CrewAI Enterprise 및 LangGraph 배포 방식에 대한 분석을 읽어보는 것이 도움이 될 것입니다.
비용 관리 측면에서는 새로운 어드바이저 도구 (advisor tool, 현재 베타 버전)를 실험해 볼 가치가 있습니다. 이 도구를 사용하면 Claude Sonnet 또는 Haiku 에이전트가 주요 실행을 담당하는 동안, Claude Opus가 단일 Messages API 요청 내에서 필요에 따라 고수준의 가이드 (high-level guidance)를 제공할 수 있습니다. 이를 사용하려면 Messages API 요청에 anthropic-beta: advisor-tool-2026-03-01 기능 헤더와 advisor_20260301을 추가하고, 그에 따라 시스템 프롬프트 (system prompt)를 업데이트하면 됩니다. 내장된 지출 제어 기능도 포함되어 있습니다. 실질적인 결과로, 전체 실행 과정에서 Opus의 요율을 지불하지 않고도 작업의 어려운 부분에 대해 Opus 수준에 근접한 추론 (reasoning) 성능을 얻을 수 있습니다.
도구 사용 및 긴 컨텍스트 관리 최적화
더 나은 도구 정의 (tool definitions)는 대부분의 개발자가 기대하는 것보다 더 많은 역할을 수행합니다. 핵심은 도구가 무엇을 하는지 설명하는 것을 넘어, 언제 도구를 사용해야 하는지, 그리고 결정적으로 언제 사용하지 말아야 하는지를 명시하는 것입니다. 대부분의 도구 호출 (tool-calling) 실패는 바로 이 두 번째 부분에서 발생합니다. 즉, 정의 내에 사용하지 말라는 지침이 없기 때문에 에이전트가 부적절한 컨텍스트 (context)에서 도구를 호출하게 되는 것입니다. 토큰 효율적인 (token-efficient) 도구 출력 또한 중요합니다. 출력을 간결하게 유지하면 불필요한 컨텍스트 소비를 줄이고 처리 속도를 높일 수 있습니다.
긴 컨텍스트 (long-context) 처리의 경우, 전체 문서를 컨텍스트 윈도우 (context window)에 무식하게 밀어 넣는 방식보다 지속적으로 더 나은 성능을 보이는 접근법은 가벼운 참조 파일 경로, 저장된 쿼리, 문서 링크를 사용하는 것입니다. 이를 통해 에이전트는 필요한 시점에 필요한 정보만을 로드할 수 있습니다. 매우 크거나 빈번하게 업데이트되는 지식 베이스 (knowledge base)의 경우, 이를 LlamaIndex 또는 유사한 검색 레이어를 통한 검색 증강 생성 (RAG, retrieval-augmented generation)과 결합하면 에이전트의 활성 컨텍스트를 현재 작업과 실제로 관련된 내용에 집중시킬 수 있습니다.
Anthropic은 이전 Claude Sonnet 모델들에 대한 1M 토큰 컨텍스트 윈도우 베타 서비스를 종료합니다. 해당 모델을 사용하는 개발자들은 표준 가격으로 전체 1M 토큰 컨텍스트 윈도우를 지원하는 Claude Sonnet 4.6 또는 Claude Opus 4.6으로 마이그레이션해야 합니다.
자동화 및 연결성: 웹훅 (Webhooks), M365 및 데이터 커넥터
웹훅 (Webhooks)은 Claude를 단순한 콘텐츠 생성기에서 실제 워크플로우 엔진으로 변화시키는 요소입니다. 올바르게 연결되어 있다면, 재무 보고서를 완료하는 에이전트가 Slack 알림을 트리거하거나, 프로젝트 관리 도구에서 검토 프로세스를 시작하거나, 사람이 버튼을 누르는 개입 (human in the loop) 없이도 파이프라인의 다음 단계로 출력을 직접 전달할 수 있습니다. 이것이 실제 기업 환경에서 지속적이고 자율적인 운영을 실용적으로 만드는 통합 레이어 (integration layer)입니다.
Microsoft 365 측면에서, Anthropic은 Excel, PowerPoint, Word용 Claude 애드인 (add-ins)을 정식 출시했으며, 유료 플랜을 위한 Outlook은 퍼블릭 베타 (public beta) 상태입니다. 이 애드인들은 애플리케이션 간에 대화 컨텍스트를 유지하므로, Excel에서 구축된 분석 내용을 맥락을 잃지 않고 PowerPoint 슬라이드나 Word 문서로 직접 흘려보낼 수 있습니다. 이미 Microsoft 스택을 깊이 사용 중인 팀에게 이러한 컨텍스트 연속성은 진정한 시간 절약 요소가 됩니다.
Claude 에이전트(agents)는 이제 관리되는 액세스 제어(governed access controls) 하에 FactSet, S&P Capital IQ, Morningstar를 포함한 시장 데이터 및 리서치 플랫폼에 연결할 수 있습니다. 새로운 MCP (Model Context Protocol) 앱은 제공업체 고유의 도구와 맞춤형 사용자 인터페이스(user interfaces)를 Claude 내에 직접 임베딩함으로써 이를 더욱 확장하며, 이는 별도의 맞춤형 통합 작업이 필요했을 도메인 특화 도구(domain-specific tooling)의 활용 가능성을 열어줍니다.
이러한 업데이트를 종합하면, Claude Managed Agents는 단발성 도구(single-shot tools)를 넘어 지속적이고 조정된 시스템(persistent, coordinated systems)의 영역으로 확고히 진입하게 됩니다. 이전의 에이전트 아키텍처(agent architectures)에서 신뢰성과 확장성의 한계에 부딪혔던 빌더들에게, 자기 수정 메모리(self-correcting memory), 결과 등급 기반 출력(outcome-graded outputs), 그리고 진정한 멀티 에이전트 위임(multi-agent delegation)의 결합은 유의미한 차이를 만들어냅니다. 결과 루브릭(outcome rubrics), 공유 파일 시스템(shared filesystems), 어드바이저급 비용 관리(advisor-tier cost management)와 같은 패턴은 Claude를 기반으로 구축하든 다른 스택을 사용하든 상관없이 도입할 가치가 있습니다. AI 에이전트 및 자동화 도구에 대한 더 자세한 내용은 AI Agents 섹션을 방문하세요.
원문 게시지: https://autonainews.com/how-anthropics-new-agent-toolkit-boosts-claudes-enterprise-reliability/
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기