아라비어 리더보드: 아라비어 지시 따르기 소개, AraGen 업데이트 및 더 많은 정보

AraGen은 아라비어 LLM 을 생성적 작업 (generative tasks) 에서 평가하는 데 사용되는 첫 번째 생성적 아라비어 리더보드 중 하나로, 벤치마크 역할을 합니다.

우리의 지속적인 노력 일환으로, 우리는 다음과 같은 업데이트를 공유하게 되어 기쁩니다:

**아라비어-리더보드 스페이스 (Arabic-Leaderboards Space)**는 **Mohammed bin Zayed University of Artificial Intelligence (MBZUAI)**와 협력하여 아라비어 AI 평가들을 한 곳에서 통합하기 위해 출시되었습니다. 이 플랫폼은 현재 AraGen-03-25와 **아라비어 지시 따르기 (Arabic Instruction Following)**를 지원하며, 다양한 모달리티에 걸친 아라비어 AI 모델 리더보드로 확장할 계획입니다.

AraGen 03-25 릴리스는 개선 사항과 업데이트된 벤치마크를 포함합니다. **지시 따르기 리더보드 (Instruction Following leaderboard)**는 **아라비어 IFEval 벤치마크 (Arabic IFEval Benchmark)**에 의해 구동되며, 아라비어 지시 따르기 능력을 평가하기 위해 공개적으로 이용 가능한 첫 번째 벤치마크입니다.

다음 섹션은 각 업데이트에 대한 세부 정보를 제공합니다.

아라비어-리더보드 (Arabic-Leaderboards) 는 모든 아라비어 평가와 작업을 위한 포괄적이고 통합된 공간입니다. 다양한 모달리티의 모델에 걸친 광범위한 평가 범위를 커버하는 중앙 허브로 설계되었습니다. 현재는 AraGen-03-25 와 Arabic Instruction Following 을 라이브 리더보드로 가지고 있습니다. 우리는 다양한 모달리티에 걸친 아라비어 AI 모델에 대한 더 많은 리더보드와 작업을 추가하여 이 공간을 확장할 계획입니다.

우리는 관심 있는 기여자들이 커뮤니티 탭을 통해 또는 이메일을 통해 직접 연락하여 자신의 작업/리더보드를 이 공간의 추가 탭으로 통합하는 방법을 논의해달라고 초대합니다.

2024 년 12 월에 우리는 AraGen 리더보드의 기반이 되는 AraGen 벤치마크를 소개했습니다. 이 리더보드의 주요 기능은 평가 데이터셋이 공정한 및 편향 없는 평가를 보장하기 위해 3 개월 동안 비공개 (blind testing) 로 유지되는 동적인 성격입니다. 동일한 철학을 준수하여, 우리는 AraGen-12-24 벤치마크와 Claude-3.5-Sonnet에 의해 평가된 모든 모델 응답을 공개적으로 릴리스합니다 (3C3H 가이드라인).

이 벤치마크와 모델 응답을 공유함으로써, 우리는 커뮤니티가 이를 검토하고 우리가 놓쳤을 수 있는 예상치 못한 행동을 식별하여 우리의 평가 프레임워크를 개선하도록 장려하는 것을 목표로 합니다.

이번 최신 AraGen 릴리스에서는 이전 버전의 279 쌍에서 340 쌍으로 확대된 질문과 답변 쌍이 포함된 데이터셋을 확장했습니다. 분포는 여전히 상대적으로 유사합니다:

질문 답변 (Question Answering):~200 쌍
**추론 (Reasoning):**70 쌍
**안전 질문 (Safety Questions):**40 쌍
**정서적 및 문법 분석 (Orthographic and Grammatical Analysis):**30 쌍

이 할당은 언어 모델/채팅봇/AI 어시스턴트의 주요 사용 사례인 질문 답변에 대한 주요 초점을 반영하며, 아라비어 문법 및 정서학에서 어려운 쿼리를 생성하는 복잡성을 고려하여 다른 평가 영역도 여전히 다루고 있습니다.

또한, 우리는 더 작은/약한 판별 모델 (judge models) 을 포함하더라도 명확성을 향상시키기 위해 **판별 시스템 프롬프트 (judge system prompt)**를 개선했습니다.

우리가 동적인 평가 사이클을 소개함에 따라 벤치마크 및 평가 파이프라인의 일관성과 신뢰성을 유지하는 것은 매우 중요합니다. 이를 보장하기 위해, 우리는 상위 10 개 모델 간의 순위 변동과 다른 데이터셋 버전 및 시스템 프롬프트 구성을 분석했습니다.

우리는 두 가지 평가 시나리오 하에서 모델 성능을 분석했습니다:

최신 AraGen 버전 (AraGen-03-25) 을 사용하여 이전 시스템 프롬프트 (SP1) 과 현재 시스템 프롬프트 (SP2) 를 비교했습니다. - 데이터셋 및 판별 시스템 프롬프트를 업데이트하는 영향을 평가했습니다.

총체적인 랭킹은 안정적이며, 최상위 모델인 (o1-2024-12-17) 은 일관되게 선두를 유지했습니다. 특히 두 Claude 모델 간 랭킹이 교체된 것을 관찰했는데, 이는 평가 접근법의 민감성을 강조하며, 특히 초기 점수가 거의 같았을 때 더욱 그렇습니다.

랭킹에서 유일한 중요한 변화는 gpt-4o-2024-08-06 모델의 경우로, 업데이트된 데이터셋과 프롬프트와 함께 성능이 크게 개선되었습니다. 이 갑작스러운 상승은 현재 우리의 지속적 벤치마크 설계 연구 일부로 조사 중입니다.

시스템 프롬프트 변경으로 인한 주요 변동은 발생하지 않아서, 동일한 판정 모델 (claude-3.5-sonnet) 을 사용할 경우 재현성이 좋음을 나타냅니다. 그러나 판정자로 더 작거나 약한 모델을 사용할 경우 잠재적 변동을 예상하며, 두 번째 시스템 프롬프트 (SP2) 를 사용하는 것이 일관성을 개선할 수 있을 것으로 기대합니다.

요약하자면, o1-2024-12-17 의 견고하고 일관되게 최상위 랭킹 성능—최점수가 82.67% 에서 70.25% 로 하락함—은 더 어려운 업데이트된 벤치마크 하에서 아랍어 애플리케이션에 대한 신뢰성을 계속 강화합니다. 최근 평가 파이프라인 업데이트는 소규모 랭킹 변화를 도입했지만, 전체 프레임워크는 안정적이며 최상위 및 최하위 수행자는 일관된 위치를 보였습니다. 많은 관찰된 랭킹 조정은 작은 점수 차이로 인한 전형적인 평가 오차 한계를 반영할 가능성이 높습니다. 특히 두 번째~다섯 번째 랭킹 모델의 점수는 이전에 70–78% 사이였으나 이제 51–57% 사이입니다. 이는 업데이트된 AraGen 데이터셋이 추상적 모델 발전과 일치하는 더 어려운 벤치마크임을 강조합니다. 절대 점수에도 불구하고, 리더보드 위치가 대부분 일관되어 평가 접근법의 견고함이 앞으로 이어질 것으로 기대됩니다.

더 자세한 점수

표 1. AraGen-03-25 (SP1) 랭킹

순위 | 모델명 | 3C3H 점수 | 정확성 | 완성도 | 간결성 | 유용성 | 정직성 | 무해성 |
|---|---|---|---|---|---|---|---|
| 1 | o1-2024-12-17 | 69.49% | 74.90% | 73.04% | 47.11% | 72.40% | 74.56% | 74.90% |
| ... |
표 2. AraGen-03-25 (SP2) 랭킹

순위 | 모델명 | 3C3H 점수 | 정확성 | 완성도 | 간결성 | 유용성 | 정직성 | 무해성 |
|---|---|---|---|---|---|---|---|
| 1 | o1-2024-12-17 | 70.25% | 75.88% | 70.98% | 51.25% | 72.55% | 75.25% | 75.59% |
| ... |
표 3. AraGen-12-24 (SP1) 랭킹

순위 | 모델명 | 3C3H 점수 | 정확성 | 완성도 | 간결성 | 유용성 | 정직성 | 무해성 |
|---|---|---|---|---|---|---|---|
| 1 | o1-2024-12-17 | 82.67% | 92.71% | 92.47% | 34.65% | 91.19% | 92.26% | 92.71% |
| ... |
표 4. AraGen-03-25 (SP2) 랭킹

순위 | 모델명 | 3C3H 점수 | 정확성 | 완성도 | 간결성 | 유용성 | 정직성 | 무해성 |
|---|---|---|---|---|---|---|---|
| 1 | o1-2024-12-17 | 70.25% | 75.88% | 70.98% | 51.25% | 72.55% | 75.25% | 75.59% |
| ... |
우리의 12 월 릴리스 일부로, 대화 능력의 모델 평가 지표인 3C3H 를 새로운 평가 측정으로 도입했습니다. 이는 LLM 의 답변의 사실성과 사용성을 평가하기 위해 설계되었습니다. 지난 3 개월 동안 우리는 흥미로운 발견을 관찰했으며, 이 섹션에서 공유합니다.

한 가지 급생 현상은 다양한 차원들이 거의 완벽하게 상관관계에 있다는 것입니다. 대부분의 경우, 올바른 답변은 높은 유용성과 무해성으로 점수화되지만, 대부분의 모델은 간결성 차원을 유지하지 못합니다. 이는 일반적으로 오늘 이러한 모델을 훈련하는 방식의 반영이며, 더 길게 작성된 답변이 더 유용하다고 보상받는 경향이 있습니다. 이 경향은 OpenAI 의 GPT-4.5 모델의 출시로 연구 커뮤니티의 주의를 끌었습니다. 사용 사례 섹션에 따르면, GPT-4.5 의 답변은 GPT-4 보다 간결하지만 여전히 동일한 유용성을 가지고 있습니다.

이 분석에서 두드러진 모델은 "silma-ai/SILMA-9B-Instruct-v1.0"이며, 이는 다른 오픈 웨이트 모델들—even larger sizes 와 비교했을 때—보다 높은 간결성 점수를 보였습니다. 그러나 이 간결성 향상은 기본 모델인 "google/gemma-2-9b-it" 과 비교했을 때 유용성과 기타 차원의 비용으로 이어졌습니다. 우리는 이 분석과 3C3H 를 최적화함으로써 커뮤니티가 커리큘러 데이터셋을 통해 모든 차원 간의 상관관계를 유지하면서 더 나은 모델을 개발할 수 있을 것이라고 믿습니다.

이것은 이러한 차원들이 어떻게 상호 연결되어 있는지, 그리고 다양한 시나리오와 훈련 레시피가 이 관계를 어떻게 영향을 미치는지 이해하는 지속적인 노력입니다. 아래에서 여러분이 선택한 모델의 임의의 조합에 대한 히트맵을 생성할 수 있는 공간을 제공합니다. 우리는 커뮤니티가 우리가 주목하지 않은 추가적인 경향을 발견하는 데 도움이 될 것이라고 바랍니다. 궁극적으로, 우리는 이 도구가 평가와 3C3H 에 대해 더 많은 토론을 촉진하고 다른 작업의 자원으로 서비스를 목표로 합니다.

우리는 이 분석의 한계 중 하나는 정답 규칙이며, 답변이 올바르지 않으면 다른 차원을 평가하지 않는다는 것입니다. 미래에 우리는 답변이 올바르지 않더라도 유용할 수 있는지, 그리고 간결성과 무해성 같은 차원들이 답변이 올바르지 않을 경우 이 평가에 어떻게 영향을 미치는지 여부를 더 조사할 계획입니다.

대규모 언어 모델 (LLMs) 의 핵심 기능 중 하나는 인간 지시를 이해하고 따르는 능력입니다. 이러한 기술은 신뢰할 수 있는 채팅봇, 가상 어시스턴트 및 사용자가 요청하는 것을 수행하는 AI 시스템을 구축하는 데 필수적입니다. 강력한 지시 따름이 없으면 모델은 올바른 정보를 생성하지만 잘못된 형식으로, 사용자의 지정된 제약 조건을 무시하거나 원하지 않는 콘텐츠를 생성할 수 있습니다. Instruction-Following 벤치마크는 모델을의 지시 준수도를 측정하고 모델을 공정하게 비교하여 개선 사항을 유도하는 표준화된 객관적인 방법입니다.

우리의 작업은 IFEval 데이터셋에서 영감을 받았습니다. IFEval 은 원래 Google 에서 소개되었으며, LLM 이 검증 가능한 지시를 따르는 능력을 평가하기 위해 설계된 구조화된 벤치마크를 제공합니다. 그것은 "정확히 세 개의 불릿 포인트 사용", "innovation 단어 두 번 포함", 또는 "답변을 100 단어로 제한"과 같은 구체적인, 객관적으로 측정 가능한 명령어를 포함하는 프롬프트로 구성됩니다. 영어 IFEval 데이터셋에는 약 500 개의 프롬프트가 포함되어 있으며, 이는 25 가지 다른 유형의 검증 가능한 지시를 포함합니다. IFEval 내 평가는 Python 함수를 통해 수행되며, 지시가 따르는지 자동으로 확인하여 인간 평가자나 다른 AI 판사 없이 평가할 필요가 없습니다. 이는 평가를 재현 가능하고 편향되지 않게 만듭니다. IFEval 은 영어로 응답하는 LLM 을 평가하기 위한 표준이 되었지만, 아랍어에 대해 유사하게 상세하고 구조화된 자원은 부족합니다.

우리의 아랍어 IFEval 데이터셋 구축은 원래 영어 IFEval 에서 약 300 개의 프롬프트를 신중하게 적응하는 것으로 시작했습니다. 이는 단순한 단어별 번역이 아님에 유의해야 합니다. 우리는 명확히 아랍어 언어적 뉘앙스와 문화적 맥락을 반영하도록 프롬프트를 신중하게 조정했습니다. 아랍어에서 의미가 없는 지시사항 (예: 영어 특유의 모음 제약 조건) 은 아랍어 언어적 과제로 동등하게 적응하거나 완전히 삭제했습니다. 영어권 맥락에 특정된 문화적 참조는 문맥적 명확성을 유지하기 위해 문화적으로 관련 있거나 아랍어 등가물로 대체했습니다. 또한, 우리는 아랍어 발음학 (phonetics), 직교적 특성 (orthographic characteristics), 형태론 (morphology) 을 강조하도록 특별히 설계된 아랍어 특화 샘플을 처음부터 생성했습니다. 이는 이점자 표기법 (diacritical marks/tashkīl) 의 신중한 사용, 특정 자음 (예: 알라프 (Alef/ا)) 을 사용하지 않는 음운적 제약 조건, 그리고 모델의 단어 선택 능력을 도전하기 위해 뿌리 기반 형태론을 활용하는 것과 같습니다. 모든 프롬프트는 아랍어 언어학자와 도메인 전문가에 의해 엄격한 검증 과정을 거쳤습니다. 그들은 각 지시사항의 문법적 정확성, 문화적 적절성, 모호하지 않은 명확성을 보장했습니다.

아랍어 IFEval 데이터셋은 연구 커뮤니티가 활용하고 테스트하며 기여할 수 있도록 공개적으로 이용 가능합니다. 이는 Huggingface 에서 inceptionai/Arabic_IFEval 을 통해 제공됩니다.

샘플 1: 아랍어 IFEval

프롬프트 (아):
فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل.

프롬프트 번역 (영):
Explain how modern technologies, such as artificial intelligence, can contribute to preserving Arabic literature. Your answer should include at least 12 words ending with one of these specific Arabic letters (د، ذ، أ، ر، ز， و), be concise, and should not exceed 120 words. Your response must not contain any commas.

따라해야 할 지시사항:

**자음 빈도 제약 조건:**자음 (د، ذ، أ، ر، ز， و) 중 하나를 끝으로 하는 단어를 적어도 12 개 포함하세요.
**문장 부호 제약 조건:**콤마를 사용하지 마세요.
**길이 제약 조건:**간결하게 작성하고 120 단어 초과하지 마세요.

예제 JSON 형식:

{
"key": 4767,
"prompt": "فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل.",
...

샘플 2: 아랍어 IFEval

프롬프트 (아):
aكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).

프롬프트 번역 (영):
Write a short story about the number 600. Within the story, the number should be spelled out in Arabic in all possible written forms at least once each ("ستة مائة", "ست مئة", "ستمئة", "ستمائة").

따라해야 할 지시사항:

귀하의 응답은 다음 아랍어 표기를 적어도 각각 한 번 명시적으로 포함해야 합니다:

ستة
مائة
ست
مئة
ستمئة
ستمائة

예제 JSON 형식:

{
"key": 4768,
"prompt": "اكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).",
...

아라비어 리더보드: 아라비어 지시 따르기 소개, AraGen 업데이트 및 더 많은 정보

요약

핵심 포인트

더 자세한 점수

댓글