AgenticDataBench: 데이터 에이전트를 위한 종합 벤치마크
요약
데이터 과학 워크플로우를 자동화하는 LLM 기반 데이터 에이전트를 엄격하게 평가하기 위한 종합 벤치마크인 AgenticDataBench를 제안합니다. 15개 도메인의 실제 데이터와 LLM 기반 생성 작업을 포함하여 에이전트의 미세한 성능을 측정합니다.
핵심 포인트
- 데이터 에이전트의 성능 평가를 위한 종합 벤치마크 제안
- 15개 수직적 도메인과 핀테크 B2B 사례를 포함한 실제 데이터셋 활용
- 기술 정렬 계층적 클러스터링을 통한 데이터 과학 기술 추출
- LLM 기반의 체계적인 작업 생성 방식을 통한 현실적 시나리오 구축
- 오픈 소스 테스트베드를 통한 최첨단 데이터 에이전트 성능 평가
데이터 과학 (Data science)은 이질적인 원시 데이터 (raw data)로부터 실행 가능한 통찰 (actionable insights)을 도출하여, 현대 사회에서 생성되는 방대한 양의 데이터의 가치를 실현하는 것을 목표로 합니다. 이 과정을 자동화하는 것은 데이터 과학자들의 노동 집약적인 노력을 줄이고, 확장 가능한 데이터 기반 애플리케이션 (data-driven applications)을 가능하게 하는 데 필수적입니다. 최근 대규모 언어 모델 (LLM) 기반의 데이터 에이전트 (data agents)가 데이터 과학 워크플로우 (workflows)를 자동화하기 위한 유망한 솔루션으로 등장했습니다. 그러나 이 분야에는 다양한 시나리오에 걸쳐 미세한 입도 (fine-grained granularity)로 이러한 에이전트들을 엄격하게 평가할 수 있는 종합적인 벤치마크 (benchmarks)가 부족합니다. 이러한 격차를 해소하기 위해, 우리는 미세한 정답 라벨 (ground-truth labels)과 함께 다양한 도메인에 걸친 현실적인 작업들을 특징으로 하는 종합 벤치마크인 AgenticDataBench를 제안합니다. 이를 통해 데이터 과학 워크플로우의 다양성과 복잡성, 그리고 에이전트의 상세한 성능을 포착하는 평가가 가능해집니다. 첫째, 다양한 도메인을 포괄하기 위해, 우리는 선도적인 핀테크 (fintech) 기업의 5가지 실제 B2B 사용 사례를 포함하여 15개의 수직적 도메인 (vertical domains)으로부터 실제 데이터셋과 작업들을 수집합니다. 둘째, 실제 작업의 중복성을 제거하고 실제 데이터가 부족한 도메인을 위한 고품질 작업을 생성하기 위해, 우리는 데이터 과학 기술 (data science skills), 반복되는 데이터 중심 운영 패턴 (data-centric operational patterns)을 도입하며, 포함된 기술의 수로 벤치마크 커버리지를 정량화합니다. 대표적인 기술들은 기술 정렬 계층적 클러스터링 (skill-aligned hierarchical clustering)을 사용하여 Stack Overflow의 대규모 작업 솔루션으로부터 추출됩니다. 셋째, 실제 비즈니스 작업을 위해, 우리는 기술 구성의 다양성을 극대화하는 작업-솔루션 쌍을 선택하여 실제 시나리오에 대한 폭넓은 커버리지를 보장합니다. 넷째, 실제 작업이 없는 도메인을 위해 현실적인 작업을 생성하고자, 우리는 이러한 기술들을 기반으로 워크플로우와 작업을 생성하는 체계적인 LLM 기반 작업 생성 접근 방식을 제안합니다. 마지막으로, 우리는 주석이 달린 벤치마크와 오픈 소스 테스트베드 (testbed)를 사용하여 최첨단 (state-of-the-art) 데이터 에이전트들을 평가하고, 상세한 기술 수준의 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기