복합 AI 시스템의 확장 가능한 추론 아키텍처: 프로덕션 배포 연구
요약
본 논문은 복잡하고 다양한 작업을 수행하는 복합 AI 시스템(compound AI systems)을 프로덕션 환경에 효율적으로 배포하기 위한 모듈형 추론 아키텍처를 제시합니다. 이 아키텍처는 서버리스 실행, 동적 자동 확장 및 MLOps 파이프라인을 통합하여 다중 구성 요소 에이전트 워크플로우 전반에 걸쳐 낮은 지연 시간과 높은 처리량을 유지합니다. 연구 결과, 기존 방식 대비 꼬리 지연 시간을 크게 줄이고 처리량은 높이며 비용 효율성을 개선하는 등 실질적인 운영상의 이점을 입증했습니다.
핵심 포인트
- 복합 AI 시스템 배포를 위한 모듈형 및 플랫폼 독립적 추론 아키텍처 제시
- 서버리스 실행, 동적 자동 확장, MLOps 통합을 통해 일관된 저지연성 확보
- 다중 모델 팬아웃 오버헤드와 콜드 스타트 전파 등 복합 시스템 특유의 과제 해결 방안 제시
- 실제 프로덕션 환경에서 꼬리 지연 시간(P95) 감소, 처리량 증가, 비용 절감 등의 정량적 성과 입증
현대 기업용 AI 애플리케이션은 복잡하고 다양한 작업을 수행하기 위해 여러 모델, 리트리버 및 도구를 조합한 복합 AI 시스템(compound AI systems)에 점점 더 의존하고 있습니다. 이러한 시스템을 프로덕션 환경에 배포하려면 동시적이고 이질적인 모델 호출을 효율적으로 처리하면서도 비용 효율성과 낮은 지연 시간을 유지할 수 있는 추론 인프라가 필요합니다. 본 논문은 Salesforce 에서 개발한 모듈형 및 플랫폼 독립적 추론 아키텍처의 프로덕션 배포 연구를 제시합니다. 이 아키텍처는 Agentforce (자율형 AI 에이전트) 와 ApexGuru (AI 기반 코드 분석) 과 같은 복합 AI 용례를 지원합니다. 시스템은 서버리스 실행, 동적 자동 확장 및 MLOps 파이프라인을 통합하여 다중 구성 요소 에이전트 워크플로우 전반에 걸쳐 일관된 낮은 지연 시간의 추론을 제공합니다. 우리는 이전 정적 배포와 비교하여 꼬리 지연 시간(P95)을 50% 이상 감소시키고, 처리량을 최대 3.9 배 개선하며, 비용을 30~40% 절감한 프로덕션 결과를 보고합니다. 또한 에이전트 워크로드를 서비스할 때 고유하게 발생하는 다중 모델 팬아웃 오버헤드, 연쇄적인 콜드 스타트 전파, 이질적인 확장 동역학 등 복합 시스템 특유의 과제를 포함한 새로운 분석을 제시합니다. 상세한 사례 연구와 운영 경험을 통해 아키텍처가 에이전트 AI 를 기업 규모로 운영화하는 데 필수적인 모델 호출의 병렬 확장, 버스트형 다중 에이전트 워크로드 처리, 그리고 빠른 모델 이터레이션 지원을 가능하게 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기