AgenticDataBench: 데이터 에이전트를 위한 종합 벤치마크

데이터 과학 (Data science)은 이질적인 원시 데이터 (raw data)로부터 실행 가능한 통찰 (actionable insights)을 도출하여, 현대 사회에서 생성되는 방대한 양의 데이터의 가치를 실현하는 것을 목표로 합니다. 이 과정을 자동화하는 것은 데이터 과학자들의 노동 집약적인 노력을 줄이고, 확장 가능한 데이터 기반 애플리케이션 (data-driven applications)을 가능하게 하는 데 필수적입니다. 최근 대규모 언어 모델 (LLM) 기반의 데이터 에이전트 (data agents)가 데이터 과학 워크플로우 (workflows)를 자동화하기 위한 유망한 솔루션으로 등장했습니다. 그러나 이 분야에는 다양한 시나리오에 걸쳐 미세한 입도 (fine-grained granularity)로 이러한 에이전트들을 엄격하게 평가할 수 있는 종합적인 벤치마크 (benchmarks)가 부족합니다. 이러한 격차를 해소하기 위해, 우리는 미세한 정답 라벨 (ground-truth labels)과 함께 다양한 도메인에 걸친 현실적인 작업들을 특징으로 하는 종합 벤치마크인 AgenticDataBench를 제안합니다. 이를 통해 데이터 과학 워크플로우의 다양성과 복잡성, 그리고 에이전트의 상세한 성능을 포착하는 평가가 가능해집니다. 첫째, 다양한 도메인을 포괄하기 위해, 우리는 선도적인 핀테크 (fintech) 기업의 5가지 실제 B2B 사용 사례를 포함하여 15개의 수직적 도메인 (vertical domains)으로부터 실제 데이터셋과 작업들을 수집합니다. 둘째, 실제 작업의 중복성을 제거하고 실제 데이터가 부족한 도메인을 위한 고품질 작업을 생성하기 위해, 우리는 데이터 과학 기술 (data science skills), 반복되는 데이터 중심 운영 패턴 (data-centric operational patterns)을 도입하며, 포함된 기술의 수로 벤치마크 커버리지를 정량화합니다. 대표적인 기술들은 기술 정렬 계층적 클러스터링 (skill-aligned hierarchical clustering)을 사용하여 Stack Overflow의 대규모 작업 솔루션으로부터 추출됩니다. 셋째, 실제 비즈니스 작업을 위해, 우리는 기술 구성의 다양성을 극대화하는 작업-솔루션 쌍을 선택하여 실제 시나리오에 대한 폭넓은 커버리지를 보장합니다. 넷째, 실제 작업이 없는 도메인을 위해 현실적인 작업을 생성하고자, 우리는 이러한 기술들을 기반으로 워크플로우와 작업을 생성하는 체계적인 LLM 기반 작업 생성 접근 방식을 제안합니다. 마지막으로, 우리는 주석이 달린 벤치마크와 오픈 소스 테스트베드 (testbed)를 사용하여 최첨단 (state-of-the-art) 데이터 에이전트들을 평가하고, 상세한 기술 수준의 통찰을 제공합니다.

Insights

AgenticDataBench: 데이터 에이전트를 위한 종합 벤치마크

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때