레지스트리 기반 에이전트 생명주기: AWS AgentCore에서 평가 기반 등록, 승격 및 은퇴를 통한 EDDOps 완성
요약
AWS Bedrock AgentCore를 활용하여 에이전트의 생명주기를 관리하는 EDDOps(평가 주도 개발 및 운영) 프레임워크를 제안합니다. 평가를 기반으로 모델을 등록, 승격, 은퇴시키는 레지스트리 중심의 거버넌스 아키텍처를 다룹니다.
핵심 포인트
- 비결정론적 LLM 에이전트를 위한 EDDOps 개념 정립
- AWS AgentCore 기반의 평가 및 레지스트리 참조 아키텍처 설계
- 비용 대비 성능을 고려한 파운데이션 모델 선택 프레임워크 제안
- 관측성 및 플러그형 평가 프레임워크를 통한 거버넌스 구현
LLM 에이전트의 기업 도입에는 품질, 신뢰성, 안전성, 지연 시간(latency) 및 비용의 균형을 맞추는 모델 선택 방법이 필요합니다. 평가 주도 개발 및 운영 (EDDOps, Evaluation-Driven Development and Operations)은 평가를 에이전트 생명주기 전반에 걸친 지속적인 거버넌스 기능으로 배치하며, 이를 단순한 최종 체크포인트로 보지 않습니다. 본 논문은 AWS Bedrock AgentCore 상에서 EDDOps를 실무자 중심으로 구현한 사례를 제시하고, 기업용 에이전트 아키텍처에서 파운데이션 모델 (foundation models)을 선택하기 위한 비용 대비 성능 프레임워크를 제안합니다. 본 연구의 기여는 세 가지입니다: 첫째, 왜 전통적인 TDD/BDD 방식이 비결정론적(non-deterministic)인 LLM 에이전트에는 불충분한지를 설명하는 개념적 합성; 둘째, EDDOps 참조 아키텍처를 AgentCore Runtime, Evaluations, Agent Registry 및 CloudWatch 관측성(observability)에 매핑한 아키텍처 설계; 셋째, 두 가지 배포 경로에 걸쳐 세 가지 파운데이션 모델을 비교하는 개념 증명(PoC)을 통해 검증된 경험적 비용 대비 성능 의사결정 프레임워크입니다. 6개의 에이전트에 걸친 30개의 단일 턴 호출(single-turn invocations), 9개의 멀티 턴 평가(multi-turn evaluations), 그리고 레지스트리 통합 거버넌스의 트레이스 데이터(trace data)를 사용하여, 우리는 평가 증거가 어떻게 모델 선택을 단순한 벤치마크 순위 매기기 작업에서 거버넌스가 적용된 경제적 의사결정으로 전환할 수 있는지 보여줍니다. 결과에 따르면, 관리형 에이전트 플랫폼이 트레이스 네이티브 관측성(trace-native observability), 플러그형 평가자 프레임워크(pluggable evaluator frameworks), 그리고 거버넌스가 적용된 레지스트리 기반 탐색(governed registry-based discovery)을 제공할 때 EDDOps를 지원할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기