OpenCompass: 대규모 언어 모델 (LLMs)을 위한 범용 평가 플랫폼

최근 몇 년 동안 인공지능 (AI) 분야는 특정 작업에 특화된 소규모 모델에서 범용 대규모 언어 모델 (LLMs)로 패러다임의 전환을 겪었습니다. LLMs의 급격한 반복(iteration)과 함께, 이들의 능력을 객관적이고 정량적이며 포괄적으로 평가하는 것은 기술 발전을 촉진하는 데 있어 중요한 연결 고리가 되었습니다. 현재 주류를 이루는 정적 벤치마크 데이터셋 기반의 평가 방법들은 작업 유형의 다양성, 일관되지 않은 평가 기준, 데이터 및 처리 워크플로우의 파편화와 같은 문제에 직면해 있으며, 이로 인해 교차 도메인 및 대규모 모델 평가를 효율적으로 수행하는 데 어려움을 겪고 있습니다. 앞서 언급한 문제들을 해결하기 위해, 본 논문은 원스톱 방식의 확장 가능하고 높은 동시성 (high-concurrency)을 지원하는 범용 LLM 평가 플랫폼인 OpenCompass를 제안하고 오픈 소스로 공개합니다. 모듈화 및 컴포넌트 디커플링 (component decoupling) 설계 철학을 고수하는 이 플랫폼은 높은 호환성, 유연성, 그리고 높은 동시성이라는 세 가지 핵심 장점을 자랑합니다. OpenCompass의 핵심 아키텍처는 구성 시스템 (Configuration System), 작업 분할 모듈 (Task Partitioning Module), 실행 및 스케줄링 모듈 (Execution and Scheduling Module), 작업 실행 유닛 (Task Execution Unit), 그리고 결과 시각화 모듈 (Result Visualization Module)의 다섯 가지 주요 컴포넌트로 구성됩니다. 이 워크플로우는 다양한 작업 시나리오의 요구 사항에 적응할 수 있도록 규칙 기반 (rule-based), LLM-as-a-Judge, 그리고 계층적 평가기 (cascaded evaluators)를 제공합니다. 지식, 추론, 연산, 과학, 언어, 코드 등을 포함한 여러 도메인에 걸친 주류 벤치마크 데이터셋을 지원함으로써, 이 플랫폼은 학계와 산업계 모두에 통합되고 효율적인 LLM 평가 도구를 제공하여 LLMs의 강점과 약점을 정확하게 식별하고 이후의 최적화를 용이하게 합니다.

Insights

OpenCompass: 대규모 언어 모델 (LLMs)을 위한 범용 평가 플랫폼

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek