T1-Bench: 실제 세계 도메인에서의 다중 시나리오 에이전트 벤치마킹
요약
T1-Bench는 실제 고객 대응 환경을 모사하여 에이전트의 다중 도메인 추론 및 도구 호출 능력을 평가하는 새로운 벤치마크입니다. 기존 벤치마크의 한계를 넘어 복잡한 다단계 시나리오와 25개 도메인을 포괄하며, 모델의 행동과 대화 품질을 엄격하게 측정합니다.
핵심 포인트
- 실제 고객 대응형 다중 도메인 환경을 반영한 고충실도 벤치마크
- 25개 도메인에 걸친 구성적 복잡성과 다단계 상호작용 평가
- 12개 모델 평가를 통한 재현 가능하고 표준화된 프레임워크 제공
- 자동 평가와 인간의 판단을 결합한 정성적 성능 평가 강화
대규모 언어 모델 (LLMs)의 추론 및 도구 호출 (tool-calling) 능력의 최근 발전은 점점 더 유능한 에이전트 시스템 (agentic systems)을 가능하게 했습니다. 그러나 기존의 벤치마크 (benchmarks)는 작업 복잡성, 현실성 및 도메인 다양성 측면에서 여전히 제한적이며, 여러 도메인에 걸친 상호작용을 포착하지 못하는 경우가 많아 지속적인 추론과 조율이 필요한 현실적인 다단계 설정에서 에이전트를 평가하는 능력을 제한합니다. 이러한 한계를 해결하기 위해, 우리는 실제 고객 대응형 다중 도메인 환경에서 에이전트 시스템을 평가하기 위한 고충실도, 포괄적 벤치마크인 T1-Bench를 소개합니다. 이는 다회차 사용자-어시스턴트 상호작용 전반에 걸쳐 구조화된 추론을 요구하는 교차 시나리오를 특징으로 하며, 다양한 난이도의 25개 도메인에 걸쳐 구성적 복잡성 (compositional complexity)과 평가적 엄격함을 실질적으로 증가시킵니다. 우리는 12개의 독점 모델 및 오픈 웨이트 (open-weight) 모델을 사용하여 T1-Bench를 평가하며, 복잡한 다단계 환경에서 에이전트 행동, 도구 활용 및 대화 품질을 평가하기 위한 재현 가능하고 표준화된 프레임워크를 제공합니다. 또한, 정성적 성능 평가를 강화하기 위해 자동 평가를 인간의 판단 (human judgments)으로 보완합니다. 전반적으로, T1-Bench는 시뮬레이션된 다중 도메인 환경에서 작업 복잡성, 상호작용 깊이 및 도메인 범위를 확장함으로써 이전의 벤치마크들을 실질적으로 발전시킵니다. 에이전트 시스템에 대한 향후 연구를 촉진하기 위해, 우리는 데이터와 평가 코드를 오픈 소스로 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기