분산 및 복합 AI 시스템을 위한 설계 방법론 및 성능 트레이드오프 관리
요약
단일 모델 중심의 한계를 극복하기 위해 여러 모델과 도구를 오케스트레이션하는 복합 AI(Compound AI) 시스템 설계 방법론을 제안합니다. 워크플로 토폴로지와 구성 선택을 통해 정확도는 유지하면서 지연 시간과 비용을 획기적으로 절감하는 8가지 설계 패턴을 제시합니다.
핵심 포인트
- 모델 중심에서 시스템 중심(System-centric) 설계로의 전환 필요성 강조
- 워크플로 토폴로지와 구성 선택을 통한 성능 트레이드오프 관리
- 복합 AI 구성 시 지연 시간 최대 60%, 비용 최대 71% 절감 가능
- SLO 준수를 위한 자동화된 시스템 구축을 위한 로드맵 제시
인공지능 (AI) 시스템은 일반적으로 정확도 (accuracy), 지연 시간 (latency), 비용 (cost)을 포함한 서비스 수준 목표 (SLO, service-level objectives)를 충족해야 합니다. 기존의 모델 중심 (model-centric) 접근 방식은 설계 시점에 단일 모델 (monolithic model)을 선택하고 입력 난이도와 관계없이 동일한 연산을 적용하며, 전문화된 구성 요소 간에 작업을 분해할 수 없고, 학습 시점에 고정된 지식을 가집니다. 실행 시간 (runtime) 동안 이는 성능 저하와 비용 증가로 이어질 수 있습니다. 모델이 주요 설계 변수이기 때문에 시스템 동작의 대부분을 결정하며, 운영 목표를 단일 설계 시점의 선택에 결합시킵니다. 이러한 한계를 해결하려면 모델 중심에서 시스템 중심 (system-centric) 설계로 전환해야 합니다. 복합 AI (Compound AI) 시스템은 명시적인 제어 로직을 통해 여러 모델, 알고리즘 및 도구를 분산 AI (distributed AI) 시스템으로 오케스트레이션함으로써 이러한 전환을 실현합니다. 이러한 시스템의 성능은 워크플로 토폴로지 (workflow topology), 각 작업에 할당된 모델, 그리고 실행 시간 동작을 제어하는 파라미터 (parameters)에 따라 달라집니다. 우리는 이 공간을 워크플로 토폴로지와 구성 선택 (configuration selection)이라는 두 가지 차원에 따라 정리하는 설계 방법론을 제시하며, 단일 모델 배포의 특정 한계를 해결하기 위한 기술들을 통합한 8가지 설계 패턴을 식별합니다. 우리는 세 가지 사례 연구를 통해 우리의 방법론을 검증합니다. 사례 연구 전반에 걸쳐, 복합 AI 구성은 단일 모델의 정확도에 2.5~4%포인트 이내로 근접하면서도 지연 시간은 최대 60%, 비용은 최대 71%까지 절감합니다. 우리는 모델 선택과 파라미터 구성이 시스템 성능을 공동으로 결정하지만, 워크플로가 더 많은 패턴과 구성 요소를 결합함에 따라 결과적인 설계 공간이 조합론적으로(combinatorially) 증가함을 보여줍니다. 따라서 우리는 수동으로 구성된 프로토타입에서 복합 및 분산 AI 시스템에서 SLO 준수를 자동으로 발견하고 유지하는 시스템으로 나아가기 위한 로드맵을 정의하는 5가지 미결 과제를 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기