OpenCompass: 대규모 언어 모델 (LLMs)을 위한 범용 평가 플랫폼
요약
OpenCompass는 기존 정적 벤치마크의 한계를 극복하기 위해 제안된 확장 가능하고 높은 동시성을 지원하는 범용 LLM 평가 플랫폼입니다. 모듈화된 설계를 통해 높은 호환성과 유연성을 제공하며, 다양한 도메인의 벤치마크를 통합하여 모델의 강점과 약점을 정밀하게 분석할 수 있도록 돕습니다.
핵심 포인트
- 기존 벤치마크의 파편화 및 일관성 없는 평가 기준 문제 해결
- 구성 시스템, 작업 분할, 실행 및 스케줄링 등 5가지 핵심 컴포넌트로 구성된 아키텍처
- 규칙 기반, LLM-as-a-Judge, 계층적 평가기 등 다양한 평가 방식 지원
- 지식, 추론, 코드 등 다중 도메인 벤치마크 데이터셋 지원
최근 몇 년 동안 인공지능 (AI) 분야는 특정 작업에 특화된 소규모 모델에서 범용 대규모 언어 모델 (LLMs)로 패러다임의 전환을 겪었습니다. LLMs의 급격한 반복(iteration)과 함께, 이들의 능력을 객관적이고 정량적이며 포괄적으로 평가하는 것은 기술 발전을 촉진하는 데 있어 중요한 연결 고리가 되었습니다. 현재 주류를 이루는 정적 벤치마크 데이터셋 기반의 평가 방법들은 작업 유형의 다양성, 일관되지 않은 평가 기준, 데이터 및 처리 워크플로우의 파편화와 같은 문제에 직면해 있으며, 이로 인해 교차 도메인 및 대규모 모델 평가를 효율적으로 수행하는 데 어려움을 겪고 있습니다. 앞서 언급한 문제들을 해결하기 위해, 본 논문은 원스톱 방식의 확장 가능하고 높은 동시성 (high-concurrency)을 지원하는 범용 LLM 평가 플랫폼인 OpenCompass를 제안하고 오픈 소스로 공개합니다. 모듈화 및 컴포넌트 디커플링 (component decoupling) 설계 철학을 고수하는 이 플랫폼은 높은 호환성, 유연성, 그리고 높은 동시성이라는 세 가지 핵심 장점을 자랑합니다. OpenCompass의 핵심 아키텍처는 구성 시스템 (Configuration System), 작업 분할 모듈 (Task Partitioning Module), 실행 및 스케줄링 모듈 (Execution and Scheduling Module), 작업 실행 유닛 (Task Execution Unit), 그리고 결과 시각화 모듈 (Result Visualization Module)의 다섯 가지 주요 컴포넌트로 구성됩니다. 이 워크플로우는 다양한 작업 시나리오의 요구 사항에 적응할 수 있도록 규칙 기반 (rule-based), LLM-as-a-Judge, 그리고 계층적 평가기 (cascaded evaluators)를 제공합니다. 지식, 추론, 연산, 과학, 언어, 코드 등을 포함한 여러 도메인에 걸친 주류 벤치마크 데이터셋을 지원함으로써, 이 플랫폼은 학계와 산업계 모두에 통합되고 효율적인 LLM 평가 도구를 제공하여 LLMs의 강점과 약점을 정확하게 식별하고 이후의 최적화를 용이하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기