HuggingFace헤드라인2026. 05. 08. 01:35

The Open Arabic LLM Leaderboard 2

요약

아랍어 지원 LLM의 증가에 따라, 커뮤니티는 기존의 제한적이고 불투명했던 벤치마크 방식을 개선하기 위해 오픈 아랍어 LLM 리더보드(OALL)를 구축했습니다. 이 리더보드는 읽기 이해, 감정 분석 등 다양한 과제를 포함하는 여러 벤치마크를 통합하여 모델 평가의 투명성과 접근성을 높였습니다. 이후 SDAIA와 Inception 등의 주도 하에 Balsam Index, AraGen, SEAL과 같은 전문적이고 심층적인 아랍어 LLM 리더보드들이 연이어 등장하며 아랍어 AI 커뮤니티의 핵심 플랫폼으로 자리매김했습니다.

핵심 포인트

초기 아랍어 벤치마크는 특정 연구자의 데모에 국한되거나, 사용자가 자율적으로 결과를 제출하는 방식이라 신뢰성 및 공정성 문제가 있었습니다.
Open Arabic LLM Leaderboard (OALL)의 출시는 아랍어 NLP 커뮤니티에 통합적이고 재현 가능한 평가 플랫폼을 제공하며 큰 성공을 거두었습니다.
다양한 주체(SDAIA, Inception, Scale 등)가 Balsam Index, AraGen, SEAL과 같은 전문화되고 심층적인 리더보드를 출시하여 아랍어 LLM 생태계를 강화하고 있습니다.
OALL은 짧은 기간 내에 700개 이상의 다양한 모델을 수집하며 가장 활발한 아랍어 LLM 평가 허브 중 하나로 성장했습니다.

아랍어 지원 LLM 의 가용성이 증가함에 따라 (단일 언어 모델과 다중 언어 모델을 모두 포함), 커뮤니티는 전용 아랍어 언어 리더보드를 만들게 되었습니다. 이전에 아랍에 중점을 둔 리더보드들은 특정 저자들이 만든 좁은 벤치마크로만 제한되었으며, 종종 그들의 작업의 데모로 사용되었습니다. 이러한 경우, 저자들은 모델이 특정 과제나 데이터셋에서 어떻게 수행되는지를 보여주는 데 리더보드를 설정했습니다. 대안적으로, 다른 리더보드는 사용자가 자신의 컴퓨팅 자원上进行 평가한 후 결과를 표시하기 위해 JSON 파일을 제출하도록 요구했습니다.

이러한 접근 방식은 아랍어 벤치밍에 대한 초기 관심을 불러일으켰지만, 다음과 같은 여러 가지 도전 과제도 도입했습니다:

자원 한계: 많은 커뮤니티 구성원들은 모든 오픈 소스 모델을 평가하여 자신의 다운스트림 프로젝트나 애플리케이션에 가장 적합한 모델을 결정하기 위해 필요한 상당한 컴퓨팅 자원에 접근할 수 없으며, 모델 제작자가 문서에서 공유하는 결과에만 의존해야 합니다. 이는 종종 직접적인 비교를 허용하지 않습니다. 시간과 컴퓨팅 파워의 높은 비용은 아랍어 LLM 의 추가 개발에 참여하는 데 중요한 장벽이 될 수 있으며, 리더보드는 가치 있는 공유 자원이 됩니다.

보고된 결과의 무결성: 일부 플랫폼은 사용자가 모델을 독립적으로 평가한 후 점수 파일만 제출하도록 요구했기 때문에, 해당 결과가 정확하거나 진정성 있는 평가를 통해 생성되었는지 보장하는 강력한 메커니즘이 없었습니다. 중앙 집중식 검증의 부재는 리더보드의 신뢰성과 공정성을 훼손할 수 있습니다.

이러한 한계는 더 통합적이고 접근 가능하고 투명한 벤치밍 플랫폼의 필요성을 강조합니다. 이 플랫폼은 아랍어 NLP 커뮤니티 전체에 대한 진정한 실험과 재현 가능한 실험을 가능하게 할 뿐만 아니라, 이를 장려합니다. 이러한 문제를 해결하기 위해 2024 년 5 월, 2A2I, TII, 그리고 HuggingFace 는 첫 번째 버전의 Open Arabic LLM 리더보드 - OALL [1] 을 출시했습니다. 이는 읽기 이해, 감정 분석, 질문 답변 등 다양한 과제를 포함하는 14 개의 벤치마크를 특징으로 합니다.

2024 년 9 월, SDAIA 와 아랍어 언어 글로벌 아카데미 (King Salman Global Academy for Arabic Language) 의 협력은 Balsam Index 를 소개했습니다. 이는 약 1,400 개의 데이터셋과 50,000 개의 질문을 포함하며, 문법 수정, 패러프레이징, 원인 - 결과 분류, 텍스트 이해 등 67 개의 과제를 포함합니다.

그해 말, 2024 년 12 월 5 일, Inception 과 MBZUAI 는 AraGen 리더보드를 발표했습니다. 이는 아랍어 첫 번째 생성적 과제 리더보드이며, 3C3H 평가 지표를 소개했습니다. 이는 사적인 테스트와 동적 평가 사이클을 사용하며, 네 가지 주요 과제를 평가하기 위해 LLM 을 평가하는 데 사용되는 AraGen Bench 라는 원시 아랍어 및 문화적으로 인식을 갖춘 생성적 과제 데이터셋을 제공합니다.

그리고 2024 년 12 월 19 일, Scale 의 안전성, 평가 및 정렬 실험실 (SEAL) 은 다중 언어 리더보드的一部分으로 아랍어 리더보드를 출판했습니다. 이 벤치마크는 가족의 다른 모든 언어와 마찬가지로 항상 사적인 것을 유지하며, 복잡한 문화적으로 뉘앙스가 있는 대화 전반에 걸쳐 챗봇 상호작용 기능을 향상시키기 위해 설계된 1,000 개의 아랍어 프롬프트를 사용하는 인간 선호도 평가에 의존합니다.

오픈 아랍어 LLM 리더보드 (Open Arabic LLM Leaderboard) 출시 후 7 개월 만에 급성장하여 아랍어 AI 커뮤니티의 핵심 플랫폼이 되었습니다. 지난 1 월 2025 년 기준 방문자 수는 46,000 명을 초과했으며, 최근 1 개월 동안 2,000 회 이상의 조회를 기록했습니다. HuggingFace 공간은 100 개 이상의 좋아요와 구글 학술 (Google Scholar) 에서 8 개의 인용을 받았습니다. 커뮤니티는 총 700 개 이상의 모델을 제출했는데, 이는 파라미터 수 1B 에서 70B 이상까지 다양합니다. 제출된 모델들은 180 개 이상의 고유 조직에서 유래하여 가장 활발한 LLM 평가 리더보드 중 하나를 형성했습니다. 출시 이후 이 리더보드는 소셜 미디어와 HuggingFace, Reddit 등 다양한 플랫폼에서 수많은 흥미로운 논의를 촉발하며, 현재까지 가장 두드러진 아랍어 리더보드였습니다.

그림 1 을 보면 초기 버전의 리더보드에 제출된 약 700 개 모델 중 대부분은 채팅 및 파인튜닝 (chat and finetuned) 모델로, 전체의 70% 이상을 차지하며, 사전 학습 (pretrained) 모델은 11% 만을 차지합니다. 모델 크기 측면에서는 7B 파라미터 미만인 모델이 50% 를 넘습니다.

**그림 1: 모델 유형과 크기의 분포.**알 수 없는 모델 유형 ('?') 의 개수는 총 요청의 0.12% 에 불과하므로 제외했습니다.

다른 언어의 리더보드와 비교하면 그림 2 와 같이 오픈 아랍어 LLM 리더보드는 출시 후 1 년 미만으로 가장 활발한 리더보드 중 하나로, 한국 (Korean), 폴란드 (Polish), 포르투갈어 (Portuguese) 리더보드에 이어紧随其后입니다. 아랍어는 전 세계적으로 가장 많이 사용되는 언어 중 하나이나 인터넷에서 상대적으로 제한된 콘텐츠만 존재하는 점을 고려할 때, 이러한 지표는 다른 언어보다 더 큰 의미를 가집니다.

**그림 2: huggingface 에서 호스팅된 다양한 MCQ 리더보드에 대한 평가 모델 수와 월별 운영 기간.**2025 년 1 월 13 일 이전 수집 데이터. 포함 언어: 아랍어, 중국 (China), 타이완 (Taiwan), 체코어 (Czech), 네덜란드어 (Dutch), 프랑스어 (French), 히브리어 (Hebrew), 아이슬란드어 (Icelandic), 이탈리아어 (Italian), 일본어 (Japanese), 한국어 (Korean v2), 말레이어 (Malay), 페르시아어 (Persian), 폴란드어 (Polish), 포르투갈어 (Portuguese), 스페인어 (Spanish), 터키어 (Turkish).

커뮤니티 내 최근 논의, 특히 오픈 아랍어 LLM 리더보드 (OALL) 및 유사한 프로젝트에 대한 비판은 현재 벤치마킹 관행의 주요 결함을 강조했습니다 [2]. 많은 연구자, 개발자, 언어 애호가들은 아랍어 특화 작업에 대한 더 직접적인 평가 필요성, 벤치마크 생성 과정의 투명성 증가, 그리고 아랍어 방언, 도메인, 실제 응용 분야의 폭을 반영하는 다양한 데이터셋 포함이 필요함을 강조했습니다. 이러한 통찰력은 업데이트된 리더보드 형성에 핵심적인 역할을 했습니다.

아랍어는 일반적인 NLP 작업이 포착할 수 없는 고유한 도전과 특성을 제시하며 전문적인 평가가 필요합니다. 이는 복잡한 문법, 풍부하고 복잡한 형태론, 구어 방언의 다양성, 그리고 문화적으로 정교한 안전 관련 고려사항을 포함합니다. 이러한 요소를 해결하는 리더보드는 모델이 실제 아랍어 언어 환경에서 어떻게 수행되는지 더 명확하게 보여줄 수 있습니다.

OALL 의 첫 번째 반복에서 많은 데이터셋과 작업은 비아랍어 화자 환경에서 유래했습니다. 아랍어로 적응되었을 때 이러한 작업들은 실제 세계의 사용 사례를 반영하거나 아랍어 화자 커뮤니티의 실용적 요구 사항을 충족하지 못했습니다. 많은 작업은 영어의 직접 번역으로, 이는 종종 언어적 및 문맥적 불일치를 도입했습니다. 이 접근법은 아랍어의 고유한 형태론적 및 구문적 복잡성을 간과하여, 진정한 언어 이해 및 모델링 능력을 측정하는 데 작업이 덜 효과적이었습니다.

또한 OALL 의 첫 번째 버전에서 일부 벤치마크는 시간이 지남에 따라 모델이 거의 완벽한 점수를 달성함에 따라 더 효과적이지 못해 became 과분화되어 점수 차이를 구별할 수 있는 능력을 제한했습니다. 이에 따라 새로운 리더보드에서는 이러한 포화된 벤치마크를 교체하고, 더 관련성 있고 최신의 평가 작업 suites 를 도입합니다.

이러한 간극을 해결하기 위해, 새로운 리더보드는 아랍어로 본래 개발된 작업을 포함합니다. 이 작업들은 언어의 고유한 특징—풍부한 형태론, 미묘한 구문 및 문맥별 사용—을 포착하도록 설계되었습니다. 이러한 요소는 번역 기반 벤치마크에서 종종 손실됩니다. 이 전환은 평가가 더 정통적이며 아랍어 사용의 현실과 더 잘 일치하도록 보장합니다.

또한, 우리는 주요 작업 중 하나인 AlGhafa 에서 무언가 발견했습니다. 이는 모델 랭킹에 우연히 영향을 미쳤습니다. 문제는 답변 선택이 확인되는 방식에서 불일치—지수가 아니라 선택 자체에 기반하여 응답을 평가—에서 비롯되었습니다. 이것이 완전히 잘못은 아니지만, 작은/약한 모델을 비례적으로 영향을 주었습니다. 일부 모델은 최대 20 점의 점수 하락을 경험했으며, 강한 모델은 상대적으로 영향받지 않았습니다. 이 문제는 평가의 일관성, 공정성 및 균일성을 손상시켰습니다.

리더보드를 개혁할 때, 우리는 다음 두 가지 지침 원칙을 따릅니다: 포화된 기계 번역 작업을 제거하고, 잠재적으로 낮은 품질 및 문화적 편향으로 인해 추가하며, 새로운 고 품질 원본 또는 인간 큐레이팅 벤치마크를 추가하여 평가의 범위를 증가합니다.

Open Arabic LLM Leaderboard (OALL) 의 첫 번째 버전에서 다음 벤치마크 데이터셋을 유지합니다:

AlGhafa 벤치마크 [3]: 원래 TII 에서 출시된 벤치마크에서, 우리는 원본 아랍어 데이터셋만 유지하며, 즉 인간 큐레이팅 버전인 Facts-Balanced, SOCAL, XGLUE, Sentiment, Sentiment-Rating, Sentiment-Rating-No-Neutral, Meta 의 Belebele [4] 에서의 두 아랍어 작업 (Arabic-MSA 와 Arabic-Dialects), 그리고 마지막으로 아랍 EXAMS 벤치마크 [5] 입니다.

우리는 다음 데이터셋을 추가하여 리더보드를 풍부하게 합니다. 지난 1 년에 출시된:

네이티브 아랍어 MMLU [6]: MBZUAI 가 원래 영어 MMLU 데이터셋을 영감으로 만들어낸 네이티브 아랍어 벤치마크로, 모던 스탠더드 아랍어 (MSA) 로 작성된 학교 시험에서 유래한 40 개의 과제와 거의 15,000 개의 객관식 문제로 구성됩니다.
인간 번역 MMLU (MMLU-HT) [7]: 인셉션이 JAIS 프로젝트의 일환으로 편집하고 MBZUAI HF 조직 하에 공개된 원래 영어 MMLU 데이터셋의 인간 번역으로, 57 개의 과제를 포함합니다.
MedinaQA: MBZUAI 가 네이티브 아랍어 벤치마크 채택을 촉진하기 위해 출시한 데이터셋으로, 일반적인 아랍어 언어 및 문법 측면에 집중합니다.
AraTrust [8]: 안전성과 진실성 관련 다양한 측면을 다루는 522 개의 인간 작성 객관식 문제로 구성된 데이터셋입니다.

마지막으로 ALRAGE 벤치마크를 소개합니다: Arabic Language Retrieval Augmented Generation Evaluation (아랍어 언어 검색 증강 생성 평가).
이것은 아랍어에서 대형 언어 모델의 검색 증강 생성 능력을 평가하기 위한 포괄적인 프레임워크를 제공합니다. 다양한 주제, 예술 및 문학부터 기술 및 혁신까지 40 권의 아랍어 책에서 유래한 세밀하게 편집된 데이터셋을 기반으로 구축되었으며, 메타-llama/Meta-Llama-3.1-70B 를 사용하여 합성 생성을 수행하고 Argilla 와 커뮤니티 스프린트로 네이티브 아랍어 화자들에 의해 검증되었습니다. 데이터셋 구조는 질문, 정답 (ground-truth answers), BAAI/bge-m3 임베딩 모델을 통해 검색된 후보 컨텍스트, 목표 후보 인덱스를 포함하며, 모두 실제 세계의 RAG 시나리오를 아랍어로 본질적으로 모사하도록 설계되었습니다.

ALRAGE 의 혁신적인 측면은 평가 방법론에 있으며, 이는 lighteval 프레임워크 내에서 LLM-as-judge 지표를 구현합니다. Qwen2.5-72B-Instruct 를 주판 모델로 사용하여 시스템은 구조화된 아랍어 프롬프트를 통해 모델의 출력과 금전 답변을 비교하여 생성된 응답을 평가합니다. 평가는 정답 정확도, 관련성 및 품질을 평가하는 세밀한 0-10 점수 rubric 을 사용하며, 표준화를 위해 점수를 0-1 범위로 정규화합니다. 이 기술적 구현은 커스텀 JudgeMetricWrapper 클래스를 통해 구현되며, 아랍어 언어 생성을 평가하기 위해 엄격한 재현 가능한 방법을 제공하면서도 아랍어 언어학적 세부 사항에 민감하게 유지하여 아랍어 NLP 의 정교한 평가 지표의 중요한 필요성을 효과적으로 해결합니다.

표 1 은 리더보드 첫 번째 버전에서 유지된 데이터셋과 이 두 번째 버전에서 새로 도입된 데이터셋을 요약합니다.

Open Arabic LLM 리더보드의 두 번째 반복의 영향을 평가하기 위해 우리는 두 버전 간에 일련의 통계적 비교를 수행했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

The Open Arabic LLM Leaderboard 2

요약

핵심 포인트

댓글