arXiv논문2026. 06. 05. 13:47

모든 곳에서 동시에 모든 것을 벤치마킹하기

요약

LLM 및 MLLM 평가의 한계를 극복하기 위해 벤치마크 구축 과정을 자동화하는 자율 에이전트 시스템인 Benchmark Agent를 소개합니다. 이 프레임워크는 데이터 주석부터 품질 관리까지 전체 파이프라인을 조율하여 고품질의 벤치마크를 생성합니다.

핵심 포인트

벤치마크 구축의 노동 집약적 문제를 해결하는 자율 에이전트 도입
텍스트 및 멀티모달을 포함한 15개의 다양한 벤치마크 생성 성공
최소한의 인간 개입으로 고품질 데이터 샘플 확보 가능성 입증
도메인 특화 추론 작업에서의 모델 성능 한계 발견

벤치마크 (Benchmarks)는 성능에 대한 표준화되고 명시적인 측정치를 제공함으로써 LLM (Large Language Models) 및 MLLM (Multimodal Large Language Models)을 평가하고 발전시키는 데 필수적입니다. 그러나 벤치마크 구축은 노동 집약적이며 재사용이 어려워, 지속 가능성과 확장성에 대한 우려를 낳고 있습니다. 더욱이, 기존의 벤치마크들은 출시 후 성능 포화 (performance saturation) 상태에 빠르게 도달하는 경우가 많아, 최첨단 (state-of-the-art) 모델들 사이의 충분한 변별력을 제공하지 못합니다. 이러한 과제를 해결하기 위해, 우리는 벤치마크 구축을 위해 설계된 완전 자율 에이전트 시스템인 Benchmark Agent를 소개합니다. 우리의 프레임워크는 사용자 질의 분석 (user query analysis) 및 하위 작업 설계 (subtask design)부터 데이터 주석 (data annotation) 및 품질 관리 (quality control)에 이르기까지 전체 벤치마크 구축 파이프라인을 조율합니다. Benchmark Agent를 평가하기 위해, 우리는 이를 구현하여 텍스트 이해 (text understanding), 멀티모달 이해 (multimodal understanding), 도메인 특화 추론 (domain-specific reasoning)을 포함한 다양한 평가 시나리오를 아우르는 15개의 대표적인 벤치마크를 생성했습니다. 인간 평가 (human evaluation), LLM-as-a-judge 평가, 그리고 일관성 검사 (consistency checks)를 포함한 광범위한 실험을 통해, Benchmark Agent가 최소한의 인간 개입으로 고품질의 벤치마크 샘플을 생성할 수 있음을 입증했습니다. 더 중요한 것은, 지속적인 평가를 통해 현재의 모델들이 특정 도메인 특화 추론 작업에서 어려움을 겪고 있다는 점을 포함하여 몇 가지 통찰력 있는 발견을 관찰했다는 것입니다. 우리는 빠르게 진화하는 벤치마크가 연구 커뮤니티에 크게 기여할 수 있다고 믿습니다. 프리뷰와 코드는 데모 페이지와 코드 저장소(code repository)를 통해 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 곳에서 동시에 모든 것을 벤치마킹하기

요약

핵심 포인트

댓글