모든 곳에서 동시에 모든 것을 벤치마킹하기
요약
LLM 및 MLLM 평가의 한계를 극복하기 위해 벤치마크 구축 과정을 자동화하는 자율 에이전트 시스템인 Benchmark Agent를 소개합니다. 이 프레임워크는 데이터 주석부터 품질 관리까지 전체 파이프라인을 조율하여 고품질의 벤치마크를 생성합니다.
핵심 포인트
- 벤치마크 구축의 노동 집약적 문제를 해결하는 자율 에이전트 도입
- 텍스트 및 멀티모달을 포함한 15개의 다양한 벤치마크 생성 성공
- 최소한의 인간 개입으로 고품질 데이터 샘플 확보 가능성 입증
- 도메인 특화 추론 작업에서의 모델 성능 한계 발견
벤치마크 (Benchmarks)는 성능에 대한 표준화되고 명시적인 측정치를 제공함으로써 LLM (Large Language Models) 및 MLLM (Multimodal Large Language Models)을 평가하고 발전시키는 데 필수적입니다. 그러나 벤치마크 구축은 노동 집약적이며 재사용이 어려워, 지속 가능성과 확장성에 대한 우려를 낳고 있습니다. 더욱이, 기존의 벤치마크들은 출시 후 성능 포화 (performance saturation) 상태에 빠르게 도달하는 경우가 많아, 최첨단 (state-of-the-art) 모델들 사이의 충분한 변별력을 제공하지 못합니다. 이러한 과제를 해결하기 위해, 우리는 벤치마크 구축을 위해 설계된 완전 자율 에이전트 시스템인 Benchmark Agent를 소개합니다. 우리의 프레임워크는 사용자 질의 분석 (user query analysis) 및 하위 작업 설계 (subtask design)부터 데이터 주석 (data annotation) 및 품질 관리 (quality control)에 이르기까지 전체 벤치마크 구축 파이프라인을 조율합니다. Benchmark Agent를 평가하기 위해, 우리는 이를 구현하여 텍스트 이해 (text understanding), 멀티모달 이해 (multimodal understanding), 도메인 특화 추론 (domain-specific reasoning)을 포함한 다양한 평가 시나리오를 아우르는 15개의 대표적인 벤치마크를 생성했습니다. 인간 평가 (human evaluation), LLM-as-a-judge 평가, 그리고 일관성 검사 (consistency checks)를 포함한 광범위한 실험을 통해, Benchmark Agent가 최소한의 인간 개입으로 고품질의 벤치마크 샘플을 생성할 수 있음을 입증했습니다. 더 중요한 것은, 지속적인 평가를 통해 현재의 모델들이 특정 도메인 특화 추론 작업에서 어려움을 겪고 있다는 점을 포함하여 몇 가지 통찰력 있는 발견을 관찰했다는 것입니다. 우리는 빠르게 진화하는 벤치마크가 연구 커뮤니티에 크게 기여할 수 있다고 믿습니다. 프리뷰와 코드는 데모 페이지와 코드 저장소(code repository)를 통해 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기