엔터프라이즈 에이전트 라우팅의 확장: 성능 저하, 진단 및 복구
요약
엔터프라이즈 환경에서 에이전트와 도구 카탈로그가 확장됨에 따라 발생하는 라우팅 성능 저하 문제를 분석합니다. 연구 결과, 정보가 불충분한 요청에서 성능이 크게 하락하며, 임베딩 기반 숏리스트 방식이 이를 효과적으로 보완함을 입증했습니다.
핵심 포인트
- 에이전트 규모 확장에 따른 라우팅 정확도 저하 현상 확인
- 성능 저하 원인을 검색 격차와 혼동 격차로 정밀 분석
- 임베딩 기반 숏리스트 기법을 통한 F1 점수 회복 가능성 제시
- 실제 운영 트래픽 환경에서의 성능 개선 효과 검증
실제 운영되는 LLM (Large Language Model) 어시스턴트는 사용자 요청을 점점 늘어나는 전문 도구 라이브러리로 라우팅(routing)하지만, 카탈로그가 확장됨에 따라 라우팅 정확도는 어떻게 저하될까요? 우리는 배포된 엔터프라이즈 생산성 어시스턴트의 110개 에이전트, 584개 도구 카탈로그를 대상으로 단일 단계 라우팅(single-step routing)을 연구하며, 10개에서 110개 에이전트에 이르기까지 세 가지 프런티어 모델(frontier models)을 평가합니다. 정보가 불충분한 요청(under-specified requests)에 대한 라우팅 F1 점수는 모델 전반에 걸쳐 1623%포인트 하락합니다. 오라클 분석(oracle analysis)을 통해 이러한 성능 저하를 extit{검색 (retrieval)} 격차(모델이 올바른 도구를 찾아내지 못함)와 extit{혼동 (confusion)} 격차(완벽한 검색이 이루어지더라도 오라클 상한선이 10%포인트 하락함)로 분해합니다. 임베딩 기반의 숏리스트 작성(Embedding-based shortlisting)은 세 가지 모델과 두 공급업체 모두에서 전체 규모의 F1 점수를 +1011%포인트 회복시킵니다. 실제 운영 환경의 주석 연구(1,435개의 인간 라벨링 발화, 3명의 주석가)는 절대적인 성능이 1015%포인트 낮음에도 불구하고, 실제 트래픽에서 +1017%포인트의 성능 회복을 확인합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기