
사내 봇을 Azure OpenAI에서 Microsoft Foundry로 전환했더니 API 비용이 1/3로 줄어든 이야기
요약
Azure OpenAI 단일 모델 사용 방식에서 Microsoft Foundry의 다중 모델 라우팅 방식으로 전환하여 API 비용을 69% 절감한 사례를 소개합니다. 태스크별로 최적의 모델을 배분하고 Foundry의 Responses API를 통해 대화 상태 관리 코드를 획기적으로 줄였습니다.
핵심 포인트
- Microsoft Foundry 도입으로 API 비용 약 69% 절감
- 태스크 난이도에 따른 다중 모델(Claude, Mistral 등) 라우팅 전략 활용
- Responses API를 통한 대화 이력 관리 코드 및 인프라 복잡도 제거
- 단일 프로젝트 내에서 1,900개 이상의 다양한 모델 전환 가능
결론을 먼저 작성
사내 지식 검색 봇을 Azure OpenAI Service의 GPT-4o 직접 호출 방식에서 Microsoft Foundry의 다중 모델 라우팅 (Multiple Model Routing) 방식으로 변경했더니,
그 이유는 2025년 11월 발표, 2026년 1월 1일 Product Terms 반영을 통해 Azure AI Foundry가 "Microsoft Foundry"로 정식 리브랜딩되었으며, 하나의 프로젝트에서 OpenAI / Anthropic / Mistral / Meta / xAI / DeepSeek의 1,900개 이상의 모델을 전환할 수 있게 되었기 때문입니다.
소스: Microsoft Learn — What is Microsoft Foundry
우선, 무엇이 문제였는가 (Before)
사내 봇의 내용은 일반적인 RAG (검색 + LLM 요약)였으며, 다음 사항을 모두 GPT-4o로 수행하고 있었습니다.
- 사용자 질문의 쿼리 재작성 (간단한 태스크)
- 벡터 검색 결과의 스코어링 (간단한 태스크)
- 최종 답변 생성 (어려운 태스크)
- 대화 이력 요약 (간단한 태스크)
GPT-4o 단가 (Azure OpenAI Service):
- 입력 $5 / 1M 토큰
- 출력 $15 / 1M 토큰
전부 GPT-4o를 사용할 경우, 한 달에 약 **2,800만 토큰 소비 → 월 ¥80,000 (약 $560)**가 정기적으로 지출되고 있었습니다.
코드 측면에서도 번거로웠는데, 대화 상태는 자체적으로 Cosmos DB에 저장 → 매번 messages 배열을 재구축하고 있었습니다:
# Azure OpenAI Service 직접 호출 (구)
from openai import AzureOpenAI
from azure.cosmos import CosmosClient
...
대화 이력 관리 코드만 30줄, 에러 핸들링(Error Handling) 포함 시 80줄, 벡터 검색 연동 및 쿼리 재작성 부분을 포함하면 총 220줄에 달했습니다.
무엇을 바꾸었는가 (After)
Microsoft Foundry의 Responses API는 대화 상태를 유지해 준다
기존 Assistants API (Azure OpenAI Service)는 **"Assistant = 지속 객체(Persistent Object)"**로, Thread → Run 모델이 복잡했습니다.
Foundry의 Responses API (Agents v2)는 **"대화 ID를 전달하면, 과거의 context를 Foundry 측에서 기억한다"**는 심플한 설계입니다:
# Microsoft Foundry (신)
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential
...
Cosmos DB의 대화 이력 관리 코드가 통째로 사라졌습니다 (30줄 → 0줄).
1,900개 이상의 모델 중에서 "태스크별로 최적의 모델"을 선택
Foundry로 전환하며 얻은 가장 큰 이점은 모델 전환이 단일 프로젝트 내에서 완결된다는 점입니다. 태스크별로 배분하면 다음과 같습니다:
| 태스크 | 구 (Azure OpenAI만 사용) | 신 (Foundry) | 단가 비율 |
|---|---|---|---|
| 쿼리 재작성 | GPT-4o | Claude Haiku | 1/10 |
| ... |
최종 답변 생성 (= 품질과 직결)은 그대로 유지하되, 그 외의 보조 태스크에서 월 API 비용이 크게 낮아집니다.
사내 봇의 실제 트래픽 내역:
- GPT-4o 사용 비율:
전체 태스크의 30%(최종 답변만) - Claude Haiku / GPT-4o-mini / Mistral Small:
70%
결과: 월 ¥80,000 → ¥25,000 (69% 절감).
왜 이렇게 갑자기 가능해졌는가 — Foundry의 리브랜딩 역사
Azure AI Studio → Azure AI Foundry → Microsoft Foundry의 명칭 변경 타임라인:
| 구명칭 | 신명칭 | 발효일 | 1차 소스 |
|---|---|---|---|
| Azure AI Studio | Azure AI Foundry | 2024년 11월 (Ignite) | Microsoft Learn |
| Azure AI Foundry | Microsoft Foundry | 2025/11/18 발표, 2026/01/01 Product Terms 반영 | 상동 |
| Azure OpenAI Service | Foundry Models (의 1개 벤더) | (폐지는 아니지만 Foundry를 경유하는 것이 표준이 됨) | 상동 |
이는 **"Microsoft가 하나의 AI 플랫폼에 모든 벤더를 옮겨 실으려는 통합 작업"**이며, Azure OpenAI Service를 직접 호출하는 코드는 **"작동은 하지만 Foundry SDK로의 이전이 사실상의 숙제"**인 상황입니다.
참고로, 최근 몇 년간의 Microsoft 명칭 변경사:
| 구명칭 | 신명칭 | 발효일 |
|---|---|---|
| Azure Active Directory | Microsoft Entra ID | 2023/07/11 공표, 2023/10/01 SKU 전환 |
| ... | AzureAD PowerShell 모듈 | Microsoft Graph SDK / Entra PowerShell (2025/10 중순에 완전 중단) |
소스: Microsoft Entra 명칭 변경 배경 / Microsoft Fabric 2023/11 GA / AzureAD PowerShell 모듈 폐지 (Tech Community)
즉, **2~3년 사이에 Identity, Data, AI 모든 계층이 명칭 변경(내부 통합)**되고 있습니다. 시판 도서, Udemy, 블로그 기사의 용어들은 너나 할 것 없이 구식이 되어가고 있습니다.
인증 시험에 미치는 영향
Microsoft 인증 시험을 취득했거나 취득할 예정인 사람에게 이것이 의미하는 바는 다음과 같습니다:
AZ-104 (Administrator Associate)
- 2026년 4월 17일 개정판 공식 Study Guide에서 제1장 (Identity)부터 "Azure AD" 표기가 소멸하고, Microsoft Entra ID 용어로 통일됨
- 합격 점수 700/1000 (Microsoft 공표치)
Connect-AzureAD를 정답으로 고르는 문제는 나오지 않으며,Connect-MgGraph기반으로 출제됨
소스: Microsoft Learn — AZ-104 Study Guide
AI-102 (AI Engineer Associate)
- Azure OpenAI Service 단독 구현 문제에서, Foundry의 Responses API + 다중 모델 설계로 전환 중 - Assistants API (Threads / Runs) 기반 문제는 점차 사라지는 추세
AZ-305 (Solutions Architect Expert)
- Identity 설계에서 Entra Workload ID / Conditional Access 기반 문제가 증가
- AI 솔루션 설계에서 Foundry + Microsoft Fabric 통합 패턴이 신규 추가
일본에서의 투자 및 인재 동향
Microsoft Japan은 2024년 4월 10일에 29억 달러 (약 4,400억 엔) 규모의 2년간 투자를 발표했습니다. 이는 Microsoft의 대일 투자로서 46년 만에 최대 규모입니다.
이 투자의 중요한 점은 "Foundry / Fabric / Entra의 대일 전개" + "일본 기술자 육성"이 세트로 구성되어 있다는 것입니다. 향후 1~2년 내에 일본의 Microsoft Foundry 프로젝트가 급증할 것으로 전망되며, Foundry / Entra / Fabric을 구현 수준에서 다룰 수 있는 인재의 시장 가치는 확실히 높아질 것입니다.
요약
사내 봇 이전을 통해 실제로 체감한 것은:
- API 비용이 1/3이 되었다 (¥80,000 → ¥25,000, 모델 분배의 효과)
- 코드가 1/4이 되었다 (220행 → 50행, 대화 상태 관리 (Conversation State Management)가 Foundry 측으로 옮겨진 효과)
- OpenAI 락인 (Lock-in)에서 해방되었다 (Anthropic / Mistral / DeepSeek로 전환 가능)
- AZ-104 / AI-102의 시험 범위가 바뀌었다는 것을 깨닫는 계기가 되었다
나의 이야기
업무에서 클라우드 자격증 관련 일을 하고 있으며, 일본어 연습 문제를 찾기 어려운 경우가 많아 자신을 위해 정리한 것을 공개하고 있는 곳이 NicheeLab입니다.
Microsoft Azure 14개 시험 (AZ-900 / AI-901 / DP-900 / SC-900 / AZ-104 / AZ-305 / AZ-400 / AZ-700 / DP-300 / DP-600 / DP-700 / AZ-140 등)에 대해 **연습 문제 400문항 · 모의고사 300문항 · 전 문항 일본어 해설 (Entra / Foundry / Fabric의 최신 용어로 기술, 평균 232자)**을 준비해 두었습니다. Connect-MgGraph
기초 PowerShell 문제도 포함되어 있습니다.
Databricks 7 + Snowflake 11 + HashiCorp 7 + dbt + Confluent Kafka + Google Cloud 14 + NVIDIA 2를 합쳐 총 57개 인증 · 약 22,000문항 · 827개 기사.
요금은 월 980엔이며, 무료 플랜으로 일부 체험할 수 있습니다.
다음에 쓰고 싶은 것
- Foundry의 Responses API를 이용한 다중 모델 분배 구현 패턴 (LangGraph 스타일의 오케스트레이션 (Orchestration) 포함)
- Cosmos DB에 저장하던 대화 이력을 Foundry로 이전할 때의 주의점
- AZ-104를 Entra 개명 후 최신 용어로 다시 준비한 공부 기록
- AZ-305를 Foundry / Fabric / Entra 지식으로 공략하는 실례
- Azure OpenAI ↔ Microsoft Foundry의 API 레이어 비교 벤치마크
이러한 내용들을 월 1~2회ペース로 작성할 예정입니다. 요청 사항이 있다면 댓글로 남겨주세요.
참고 링크 (1차 소스)
Microsoft 공식
- Microsoft Foundry란 (Microsoft Learn)
- Microsoft Entra 개명 배경 (Microsoft Learn)
- AzureAD PowerShell 모듈 폐지 안내 (Tech Community)
- Microsoft Fabric November 2023 GA (Fabric Blog)
- AZ-104 Study Guide (Microsoft Learn)
- Microsoft Japan 29억 달러 투자 (Microsoft News)
NicheeLab — 일본어 학습 리소스
- NicheeLab — Microsoft Azure 14개 시험 일본어 문제집
- NicheeLab — AZ-104 완전 가이드 (Entra 개명 대응)
- NicheeLab — AZ-305 Solutions Architect Expert 완전 가이드
- NicheeLab — Azure 시험 합격률 랭킹
- NicheeLab — Azure 시험 공부 시간 요약표
- NicheeLab — Azure 초보자 가이드 (AZ-900부터 시작)
댓글 / Twitter를 통한 피드백을 환영합니다. 후속편으로 「Foundry의 Responses API 벤치마크」, 「Cosmos로부터의 대화 이력 이전 가이드」 등의 요청을 남겨주세요.
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기