📚 3LM: STEM 및 코드 분야에서 아랍어 LLM 벤치마크

요약

본 기사는 아랍어 대형 언어 모델(LLMs)의 성능을 과학적 추론, 기술 문제 해결 및 코딩 능력 등 고부가가치 영역에서 평가하기 위해 설계된 다중 구성 요소 벤치마크 '3LM (علم)'을 소개합니다. 3LM은 실제 교육 자료 기반의 객관식 STEM 문제(Native STEM), 합성 난이도 문제를 포함하는 Synthetic STEM, 그리고 아랍어 번역 및 적응된 코드 생성 테스트셋으로 구성되어 있습니다. 이 벤치마크를 통해 다양한 LLM들을 평가한 결과, 특정 모델들이 각 영역에서 우수한 성능을 보였으며, 이는 아랍어 LLM의 구조적 추론 능력과 코딩 능력을 객관적으로 측정할 수 있는 중요한 진전을 의미합니다.

핵심 포인트

3LM (علم)은 STEM 및 코드 생성에 특화된 최초의 다중 구성 요소 아랍어 LLM 벤치마크이다.
Native STEM은 실제 아랍어 교육 자료에서 추출한 MCQ로, 모델의 사실적/개념적 이해를 평가한다.
Synthetic STEM은 YourBench 파이프라인을 활용하여 고난도 추론 능력을 갖춘 합성 문제를 생성함으로써 테스트 다양성을 높였다.
코드 생성 영역에서는 HumanEval 및 MBPP와 같은 표준 벤치마크를 아랍어로 적응시켜, 자연어 프롬프트 기반의 코딩 평가가 가능하다는 것을 입증했다.
평가 결과, Qwen2.5-72B-Instruct 등 특정 모델들이 STEM 객관식 정확도에서 높은 성능을 보였으며, GPT-4o가 코드 생성에서 최상급 성능을 기록했다.

최근 몇 년간 아랍어 대형 언어 모델 (LLMs) 은 눈에 띄는 진전을 보였으나, 기존 벤치마크는 고부가가치 기술 분야에서의 성능 평가에 한계가 있습니다. 대부분의 평가는 요약, 감성 분석 또는 일반적인 질문 답변과 같은 일반적 작업을 중심으로 이루어져 왔습니다. 그러나 교육부터 기술 문제 해결까지 광범위한 실제 응용 분야에 필수적인 과학적 추론 및 프로그래밍은 중요합니다.

이 간극을 해소하기 위해 우리는 STEM (Science, Technology, Engineering, and Mathematics) 과 코드 생성을 평가하는 데 특화한 **3LM (علم)**이라는 다중 구성 요소 벤치마크를 소개합니다. 3LM 은 아랍어 모델의 구조적 추론 및 형식 논리 분야에서 전통적으로 표현되지 않았던 영역을 테스트하기 위해 특별히 설계된 첫 번째 벤치마크입니다.

3LM 은 실세계 다중 선택 STEM 문제 (MCQs), 합성 고난도 STEM 문제, 번역 코드 생성 작업으로 구성된 세 개의 데이터셋으로 이루어져 있습니다.

Native STEM 벤치마크는 8–12 학년 수준의 교재, 워크시트 및 시험 은행 등 정통 아랍어 교육 자료에서 추출한 865 개의 MCQ 로 구성됩니다. 질문은 물리학, 화학, 생물학, 수학, 지리라는 5 가지 핵심 과목을 포함합니다.

각 질문은 도메인 및 난이도 (1–10 척도) 를 포함한 메타데이터가 주석 처리되었습니다. 데이터는 OCR (LaTeX 수학 식 파싱을 위한 Pix2Tex 포함), LLM 기반 질문-답변 추출, 수동 검토를 결합한 파이프라인을 통해 수집되었습니다. 이 데이터셋은 실제 교육 자료를 사용하여 아랍어 모델의 사실적 및 개념적 이해를 평가하는 데 현실적인 테스트베드를 제공합니다.

더 큰 도전과 다양성을 소개하기 위해 우리는 YourBench 파이프라인을 사용하여 1,744 개의 MCQ 를 합성된 부분으로 생성했습니다. 이 구성 요소는 아랍어 교재 텍스트에서 추출하여 조각화, 요약한 후 LLM 기반 질문 생성 시스템에 입력합니다. 결과는 개념적, 분석적, 응용 기반 문제 등 중-고난도 추론에 집중된 큐레이션된 질문 집합입니다.

합성 STEM 은 Native MCQ 에 중요한 균형을 제공하여 더 깊은 추론 능력을 탐구하고 답변 편향을 최소화합니다. 모든 생성된 질문은 명확성, 구조, 콘텐츠 유효성에 기반하여 필터링되었으며, 수동 검토를 통한 품질 보증이 진행되었습니다.

3LM 의 세 번째 구성 요소는 코드 생성을 목표로 하며 이는 LLM 평가의 성장 영역입니다. 우리는 널리 사용되는 HumanEval+ 와 MBPP+ 벤치마크를 아랍어로 번역 및 적응하여, 자연어 프롬프트를 통해 프로그래밍을 테스트하는 첫 번째 코드 데이터셋을 만들었습니다.

우리는 GPT-4o 를 사용하여 프롬프트 번역을 수행하고, ROUGE-L F1 임계값 (< 0.8) 을 기반으로 저품질 샘플을 거부하는 백번역 파이프라인으로 결과를 검증했습니다. 추가적인 인간 필터링은 프롬프트의 명확성과 정확성을 보장했습니다. 코드 및 테스트 스위트는 점수 충실도를 유지하기 위해 변경되지 않았습니다. 평가는 EvalPlus 프레임워크를 사용하여 pass@1 과 pass@1+ 지표를 사용합니다.

3LM 의 각 데이터셋은 데이터 품질, 공정성 및 대표성을 보장하기 위한 다단계 개발 과정을 거쳤습니다.

Native STEM에서는 아랍어 PDF 소스를 수집하고 평문 텍스트와 수학 공식을 모두 복원하기 위해 이중 OCR 접근법을 적용했습니다. 질문은 LLM 기반의 chunking 및 패턴 인식으로 추출된 후, 무작위 답변 순서를 포함한 MCQ 형식으로 분류되었습니다. 최종 샘플은 전문성이 있는 아랍어 원어민이 검증하여 답변의 유효성과 가독성을 확인했습니다.

Synthetic STEM에서는 YourBench 파이프라인을 아랍어 입력에 맞게 수정했습니다. 소스 문서가 인접 후 요약, chunking 처리된 후 MCQ 생성을 위한 코드 제어형 생성기에 투입되었습니다. 이미지 의존성이나 모호한 내용은 필터링되어 목표 난이도 범위 내의 질문만 유지되었습니다. 결과는 STEM 분야에 대한 깔끔하고 고품질의 아랍어 MCQ 세트입니다.

Code Benchmarks에서는 언어 이해를 분리하면서 코드 논리를 보존하는 것이 목표였습니다. 프롬프트 번역은 GPT-4o가 처리하고, 역번역으로 검증했습니다. 코드는 테스트 없이 평가 균형을 위해 무결성 유지되었습니다. 결과는 EvalPlus 도구 체인으로 직접 평가할 수 있는 아랍어 프롬프트 벤치마크입니다.

우리는 40 개 이상의 LLM 을 평가했으며, 이는 아랍어 우선, 다국어, 일반 목적 기반 및 인스트럭션 튜닝 모델 포함했습니다. 평가는 객관식 정확도와 생성적 완료 지표로 수행되었습니다.

MCQ 설정에서 Qwen2.5-72B-Instruct은 Native(71.8%) 와 Synthetic(67.0%) STEM 서브셋 모두에서 최고 성능을 달성했습니다. 완료 작업에서는 Gemma-3-27B 가 43.2% 정확도로 STEM 답변에서 가장 강력한 결과를 보였습니다.

코드 생성에서 GPT-4o 는 HumanEval-ar(83.5% pass@1+) 와 MBPP-ar(63.6% pass@1+) 에서 최상급 성능을 입증했습니다. 이러한 결과는 아랍어와 영어 pass@1 점수 간의 강한 상관관계 (~0.97) 를 보여, 언어별 프롬프트 품질이 모델 결과에 중요한 영향을 미친다는 것을 시사합니다.

우리는 또한 분산자 교란 (distractor perturbation) 하의 견고성을 검토하여, 인스트럭션 튜닝 모델이 기본 모델보다 훨씬 안정적임을 발견했습니다. 프롬프트 엔지니어링과 zero-shot 디자인도 아랍어 STEM 성능에 유의미한 영향을 미친 것으로 나타났습니다.

우리는 표준 도구로 쉽게 재현 가능한 벤치마크를 구축했습니다:
lighteval
STEM 데이터셋의 객관식 및 오픈 엔드 질문 평가를 처리합니다.
evalplus
함수 수준 테스트를 사용하여 견고한 pass@1 과 pass@1+ 코드 점수를 제공합니다.
모든 스크립트, 설정, 평가 파이프라인은 GitHub 저장소에서 사용 가능하며, HuggingFace Transformers 또는 OpenAI API 와 호환되는 모든 모델을 평가할 수 있습니다.

모든 세 데이터셋은 오픈 소스이며 HuggingFace Datasets 에서 호스팅됩니다:
연구에서 3LM 을 사용하신다면, 다음을 인용해 주세요:

@inproceedings{boussaha-etal-2025-3lm,
title = "3{LM}: Bridging {A}rabic, {STEM}, and Code through Benchmarking",
author = "Boussaha, Basma El Amel and
...

AI 자동 생성 콘텐츠

원문 바로가기

📚 3LM: STEM 및 코드 분야에서 아랍어 LLM 벤치마크

요약

핵심 포인트

댓글