【보존판】 실전 AI 에이전트 구축 방법 2026 — Microsoft Agent Framework 1.0 및 Foundry Hosted - Insights | Molayo

「데모는 돌아간다. PoC도 만들 수 있었다. 하지만 실전(Production)에 올리지 못한다」

2026년, 현장의 엔지니어가 100번은 입에 담았을 대사입니다.

스킬 관리, 메모리, 권한 분리, 평가, 그라운딩 (Grounding) — 실전화 단계에서 막히는 이유는 언제나 「프레임워크의 바깥쪽」에 있습니다.

Microsoft Build 2026에서, 이 「바깥쪽」을 통째로 제품화한 스택이 갖춰졌습니다. 본 기사는 실전 에이전트를 실제로 구축하고 배포하기 위한 실전 가이드입니다.

2026년의 실전 에이전트는 4개의 레이어를 조합하여 만듭니다.

프레임워크 (Framework) — Microsoft Agent Framework 1.0 (GA). skill / memory / context를 「제1급 개념 (First-class concept)」으로 취급 -
호스트 실행 환경 (Host Runtime Environment) — Foundry Hosted Agents (6월 말까지 GA 예정). 하이퍼바이저 분리 + 에이전트 단위의 Entra ID -
지식 그라운딩 (Knowledge Grounding) — Microsoft IQ (Work / Foundry / Fabric / Web) -
평가 (Evaluation) — Adaptive Evaluations. 정책을 자동 테스트로 변환

「LLM을 호출하는 코드」가 아니라, 이 4개 층을 느슨하게 결합(Loosely coupled)하여 쌓는 것이 2026년의 정답입니다.

「프레임워크만」 혹은 「모델만」으로는 실전에 올릴 수 없습니다. 막히는 지점은 매번 분리·권한·평가·그라운딩과 같은 "운영 레이어"입니다.

┌─────────────────────────────────────────────┐
│ 당신의 에이전트 │
├─────────────────────────────────────────────┤
...

Python과 .NET 모두에서 GA (General Availability) 되었습니다. 최대 특징은 skill · context · memory를 제1급 개념으로 설계했다는 점입니다. 지금까지 각 팀이 자체적으로 발명해야 했던 「기억」, 「문맥」, 「능력」이 프레임워크의 프리미티브 (Primitive)가 되었습니다.

프리미티브	역할	실전에서 왜 중요한가
skill	에이전트가 실행할 수 있는 능력 (도구/함수)	능력의 경계 = 권한·테스트의 단위가 됨
memory	대화·태스크를 가로질러 영속하는 기억	세션 간의 일관성과 개인화
context	실행 시 주입되는 문맥 (사용자/업무 상태)	그라운딩과 안전성의 제어점

이하는 프리미티브의 **개념을 보여주는 의사 코드 (Pseudo code)**입니다. 실제 API 명칭은 SDK 버전에 따라 달라질 수 있습니다. 설계의 「형태」를 파악하기 위해 읽어주세요.

# 의사 코드: skill / memory / context를 제1급으로 취급
from agent_framework import Agent, skill, Memory, Context
@skill(name="refund_order", description="주문을 환불한다")
...

포인트는 skill이 「테스트·권한·관측의 단위」가 된다는 것입니다. 능력을 함수로 분리하기 때문에, 후속 단계인 Adaptive Evaluations에서 그대로 검증할 수 있습니다.

「어디서 실행할 것인가」를 해결하는 것이 호스트 실행 환경입니다. 현 시점(2026년 6월)에서는 GA는 6월 말까지 롤아웃될 예정이며, 실전 요구사항을 플랫폼 측에서 보장합니다.

하이퍼바이저 분리 샌드박스 (Hypervisor-isolated Sandbox) — 에이전트별 강력한 격리 -
에이전트 단위의 Entra ID — 「인간의 권한」이 아닌 「에이전트의 권한」을 발행 -
소스 코드로부터의 배포 — azd를 사용하여 리포지토리를 그대로 배포 -
Voice Live / WebSocket — 음성·양방향 스트리밍 대응

실전 에이전트 보안 사고의 대부분은 「권한 재사용」이 원인입니다. 에이전트 전용 Entra ID를 발행하여 최소 권한으로 동작하도록 하는 것을 첫 설계 단계에 포함하십시오. 인간 계정의 권한을 빌려 쓰는 것은 안티 패턴 (Anti-pattern)입니다.

# 1. 프로젝트 초기화
azd init --template foundry-hosted-agent
# 2. 에이전트 전용 Identity 구성 (Entra ID)
...

「Dockerfile을 작성하고, 레지스트리에 push하고, 매니페스트를...」 하는 절차를 azd up

한 번에 압축됩니다. 인프라가 아닌 에이전트에 집중할 수 있다는 것이 핵심 가치입니다.

에이전트가 환각 (Hallucination)을 일으키지 않고, 업무 문맥에 맞춰 올바르게 답변하기 위한 레이어입니다. 용도에 따라 4가지로 나뉩니다.

IQ	지식의 종류	활용 사례
Work IQ	직장 내 시맨틱스 (사람, 일정, 문서)	사내 어시스턴트
Foundry IQ	에이전트의 지식 베이스 (Knowledge Base)	독자적인 RAG의 토대
Fabric IQ Ontology	비즈니스 시맨틱스 (업무 온톨로지)	업무 데이터와 연계된 답변
Web IQ	Bing을 통한 신선한 Web Grounding	최신 정보 취득

Web IQ의 수치는 압도적입니다.

P95 레이턴시 (Latency) 164ms - 쿼리당
토큰 소비 최소화 - Grounding은 "
대체 수단보다 2.5배 빠름"

# 의사 코드: context에 IQ를 묶음
ctx = Context(
    grounding=[
        ...
    ]
)

RAG를 처음부터 직접 구축하면 검색, 청킹 (Chunking), 최신성 관리 단계에서 에너지를 소모하게 됩니다. IQ는 이 과정을 "Grounding의 표준 부품"으로서 제공합니다. 우선 IQ로 구축하고, 부족한 부분만 직접 구현하는 것이 2026년의 효율적인 해법입니다.

에이전트는 **확률적 (Probabilistic)**입니다. 회귀 (Regression) 현상은 "어느샌가" 발생합니다. Adaptive Evaluations는 정책 (Policy, 지켜야 할 규칙)을 자동화된 행동 테스트로 변환합니다.

정책: "환불은 주문당 1회까지. 중복 환불 금지"
│
▼ Adaptive Evaluations가 변환
...

skill 단위로 테스트 작성 가능 (①의 설계가 효과를 발휘)
정책 변경이 곧바로 테스트 업데이트로 이어짐
CI에 통합하면 모델 교체 시 발생하는 회귀 현상을 감지

**"평가가 없는 에이전트 = 실서비스 투입 불가"**라고 생각하십시오. 모델을 Opus 4.8로 교체하거나, GPT-5.5로 전환하는 등의 판단을 뒷받침하는 것이 바로 평가 레이어입니다.

Foundry의 카탈로그는 11,000개 이상의 모델을 보유하고 있습니다. 실서비스에서는 "하나의 모델로 고정"하는 것이 아니라, 용도별로 나누어 사용합니다.

용도	권장 모델	이유
고난도 추론 및 에이전트 핵심	Claude Opus 4.8 (preview)	복잡한 도구 연동 및 긴 문맥 처리
밸런스형 대량 처리	Claude Sonnet	비용과 품질의 중도
고속·경량 태스크	Claude Haiku	레이턴시 최우선
OpenAI 계열로 통일하고 싶을 때	GPT-5.5 (GA: 6월 3일)	기존 OpenAI 자산과의 호환성

Claude Opus 4.8은 현재 preview 단계입니다. 실서비스의 크리티컬 패스(Critical Path)에 배치할 경우, GA 상황과 SLA를 확인한 후, Adaptive Evaluations를 통해 폴백 (Fallback) 대상(Sonnet 등)도 함께 검증해 두어야 합니다.

지금까지의 내용을 한 장으로 요약하면, 실서비스 에이전트 구축의 최단 경로는 다음과 같습니다.

# ① 프레임워크로 skill/memory/context 구현 (Python 또는 .NET)
# ② IQ를 context에 바인딩 (Grounding)
# ③ 정책을 Adaptive Evaluations에 등록 (CI에서 실행)
...

PoC에서 실서비스로 가는 거리가 "자체 운영 기반 구축"에서 "4개 레이어의 조합"으로 단축된 것이 2026년의 본질적인 변화입니다.

실서비스 에이전트 = 프레임워크 + 호스트 실행 환경 + IQ Grounding + 평가의 4개 레이어
Agent Framework 1.0 (GA)이 skill/memory/context를 일급 객체로 다루며 설계 단위가 표준화됨
Foundry Hosted Agents (6월 말 GA 예정)를 통해 분리된 에이전트 단위의 Entra ID 및 azd up 지원

배포가 가능해집니다 -
Microsoft IQ를 통해 그라운딩 (Grounding)을 표준 부품화 (Web IQ는 P95 164ms로 2.5배 더 빠름) -
Adaptive Evaluations가 없는 에이전트는 운영 환경에 적합하지 않습니다. 정책을 테스트로 변환하십시오 - 모델은 Foundry의
11,000개 이상의 모델 중 용도에 따라 선택 (Opus 4.8은 preview, GPT-5.5는 6월 3일 GA 예정)

여러분의 팀에서는 4개 계층 중 **어디가 가장 큰 병목 현상 (Bottleneck)**이 되고 있나요? 댓글로 알려주세요.

도움이 되었다면 좋아요👍와 저장📌을 부탁드립니다! 나중에 다시 볼 수 있습니다.

Microsoft Build 2026: Microsoft Fabric 및 Databases를 활용한 에이전트 기반 앱 구축

Microsoft Build 2026 요약

【보존판】 실전 AI 에이전트 구축 방법 2026 — Microsoft Agent Framework 1.0 및 Foundry Hosted

요약

핵심 포인트

댓글