🇵🇭 FilBench - LLM 이 타갈로그 (Tagalog), 필리핀어 (Filipino) 및 세부아노 (Cebuano) 를 이해하고 생성할

요약

FilBench는 타갈로그(Tagalog), 필리핀어(Filipino), 세부아노(Cebuano) 등 필리핀 언어에 대한 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위해 개발된 포괄적인 벤치마크입니다. 이 벤치마크는 문화적 지식, 고전 NLP, 독해 이해, 생성 네 가지 주요 카테고리로 구성되어 있으며, 각 영역에서 LLM의 깊이 있는 능력을 측정합니다. 평가 결과에 따르면, 동남아시아 특화(SEA-specific) 모델들이 가장 높은 성능을 보였으나, 여전히 GPT-4o와 같은 최신 클로즈드소스 모델에는 미치지 못했습니다. 하지만 FilBench는 필리핀어/SEA 특화 데이터를 지속적으로 큐레이션하고 파인튜닝하는 노력이 여전히 매우 중요하며, 이 분야의 연구 방향을 제시합니다.

핵심 포인트

FilBench는 타갈로그, 세부아노 등 필리핀 언어에 대한 LLM 성능을 측정하는 포괄적인 평가 프레임워크이다.
평가는 문화적 지식, 고전 NLP, 독해 이해, 생성의 4가지 핵심 카테고리로 구성되어 깊이 있는 분석을 제공한다.
SEA-specific 모델들이 가장 높은 성능을 보였으나, 최고 수준의 성능은 여전히 최신 클로즈드소스 LLM에 의존하고 있다.
FilBench는 필리핀어/SEA 특화 데이터를 큐레이션하여 기본 LLM을 파인튜닝하는 노력이 지속적인 성능 향상에 매우 중요함을 강조한다.

그래서 우리는 타갈로그 (Tagalog), 필리핀어 (Filipino: 표준 타갈로그), 그리고 세부아노 (Cebuano) 의 유창성, 언어학적 및 번역 능력, 그리고 특정 문화적 지식에 대한 LLM 의 능력을 평가하기 위한 포괄적인 평가 suites 를 개발했습니다.

우리는 FilBench 에서 20 개 이상의 최신 상태-of-the-art LLM 을 평가하여 필리핀어에서의 성능을 종합적으로 평가했습니다:

📄 논문: https://arxiv.org/abs/2508.03523
🖥️ GitHub: https://github.com/filbench/filbench-eval

FilBench 평가 suites 는 문화적 지식 (Cultural Knowledge), 고전 NLP, 독해 이해 (Reading Comprehension), 생성 (Generation) 이라는 4 개의 주요 카테고리로 나뉘어 있으며 12 개의 작업으로 구성됩니다. 예를 들어, 고전 NLP 카테고리에는 감성 분석과 같은 작업이 포함되며, 생성 작업에는 번역의 다양한 측면이 포함됩니다. 이러한 카테고리가 NLP 연구 및 사용의 우선순위와 경향을 반영하도록 하기 위해 우리는 2006 년부터 2024 년 초까지 필리핀어에 대한 NLP 연구의 역사적 조사에 기반하여 이를 선정했습니다. (이러한 카테고리들은 대부분 필리핀어의 자연스러운 사용을 충실하게 보장하기 위해 번역되지 않은 내용만 포함합니다.)

문화적 지식 (Cultural Knowledge): 이 카테고리는 언어 모델의 사실적이고 문화적으로 특화된 정보를 회상할 수 있는 능력을 테스트합니다. 문화적 지식을 위해 우리는 LLM 의 지역적 및 사실적 지식 (Global-MMLU), 필리핀 중심 가치 (KALAHI), 그리고 단어 의미 분별 능력 (StingrayBench) 을 테스트하는 다양한 예시를 선정했습니다.

고전 NLP: 이 카테고리는 전문화된 훈련된 모델이 전통적으로 수행했던 정보 추출 및 언어학적 작업의 다양한 종류를 포함합니다. 예를 들어, 명사 인식, 감성 분석, 텍스트 분류 등입니다. 이 카테고리에서는 명사 인식을 위해 CebuaNER, TLUnified-NER, Universal NER 의 인스턴스를 포함하며, 텍스트 분류 및 감성 분석을 위해 SIB-200 과 BalitaNLP 의 서브셋을 포함합니다.

독해 이해 (Reading Comprehension): 이 카테고리는 필리핀어 텍스트를 이해하고 해석할 수 있는 언어 모델의 능력을 평가하며, 독해력, 이해, 자연어 추론과 같은 작업에 초점을 맞춥니다. 이 카테고리에서는 Cebuano Readability Corpus, Belebele, NewsPH NLI 의 인스턴스를 포함합니다.

생성 (Generation): 우리는 LLM 이 텍스트를 충실하게 번역할 수 있는 능력을 테스트하기 위해 FilBench 의 상당 부분을 할애했습니다. 영어에서 필리핀어로 또는 세부아노에서 영어로 번역하는 작업입니다. 우리는 문서 (NTREX-128), 자원봉사자의 현실적인 텍스트 (Tatoeba), 도메인 특화 텍스트 (TICO-19) 를 포함한 다양한 테스트 예시 집합을 포함합니다.

각 카테고리는 집계 지표를 제공합니다. 단일 대표 점수를 만들기 위해, 우리는 각 카테고리의 예시 수에 기반하여 가중 평균을 계산하며 이를 FilBench 점수라고 합니다.

사용법을 단순화하고 설정을 위해, 우리는 LLM 평가용 모든 기능 프레임워크인 Lighteval 을 기반으로 FilBench 를 구축했습니다.
언어 특화 평가를 위해, 우리는 평가에서 일반적으로 사용되는 용어 (예: "yes" (oo), "no" (hindi), "true" (totoo) 등) 에서 영어에서 타갈로그 (Tagalog) 또는 세부아노로 번역 쌍을 먼저 정의했습니다.
그런 다음, 우리가 관심 있는 능력에 대한 커스텀 작업을 구현하기 위해 제공된 템플릿을 사용했습니다.

FilBench 는 이제 공식 Lighteval 저장소에서 커뮤니티 작업으로 이용 가능합니다!

여러 LLM 을 FilBench 에서 평가함으로써 우리는 필리핀어에서의 성능에 대해 몇 가지 통찰력을 발견했습니다.

Finding #1: Although region-specific LLMs still lag behind GPT-4, collecting data to train these models is still a promising direction

최근 몇 년간 동남아 언어 (SEA-specific) 를 대상으로 하는 지역별 LLM 이 증가했습니다. SEA-LION 과 SeaLLM 같은 모델이 이에 해당하며, 이들은 HuggingFace 에서 자유롭게 다운로드할 수 있는 오픈_WEIGHT LLM 입니다. 우리는 SEA-specific LLM 이 우리 언어에 대해 가장 파라미터 효율적이며, 다른 모델 대비 FilBench 점수가 가장 높다고 발견했습니다. 그러나 가장 좋은 SEA-specific 모델은 여전히 GPT-4o 같은 클로즈드소스 LLM 을 능가하지 못합니다.

지역별 LLM 구축이 여전히 의미가 있습니다. 우리는 SEA-specific instruction-tuning 데이터로 기본 LLM 을 지속적으로 Fine-tuning 할 때 2-3% 의 성능 향상을 관찰했기 때문입니다.
이는 필리핀어/SEA-specific Training 데이터를 Curate 하는 노력이 여전히 관련성이 높으며, FilBench 에서 더 좋은 성능을 달성할 수 있음을 시사합니다.

또한 FilBench 의 네 가지 카테고리에서 대부분의 모델이 Generation Capability 에 어려움을 겪는다는 것을 관찰했습니다. Generation 의 Failure Mode 를 inspect 할 때, 이는 모델이 번역 지시를 따르지 못하거나, 지나치게 길고 상세한 텍스트를 생성하거나, Tagalog 또는 Cebuano 대신 다른 언어를 Hallucinate 하는 경우를 포함합니다.

필리핀은 인터넷 인프라와 평균 소득이 제한적입니다 [3]. 따라서 비용과 컴퓨팅 효율적인 LLM 이 필요합니다. FilBench 를 통해 우리는 효율성의 Pareto Frontier 에 있는 LLM 을 식별할 수 있었습니다.

일반적으로, 오픈_WEIGHT LLM (HuggingFace 에서 자유롭게 다운로드 가능한 모델) 은 성능을 희생하지 않으면서 상업적 모델보다 훨씬 저렴합니다. 필리핀어 언어 작업에 대한 GPT-4o 의 대안을 원하신다면 Llama 4 Maverick 을 시도해 보세요!

우리는 이 정보를 FilBench 리더보드 HuggingFace 공간에서 제공합니다.

FilBench 가 필리핀 언어의 LLM Capability 에 대한 더 깊은 통찰력을 제공하고, 필리핀 NLP 연구 및 개발을 위한 촉매제 역할을 할 수 있기를 바랍니다. FilBench 평가 세트는 Hugging Face 의 lighteval 을 기반으로 구축되어, LLM 개발자가 벤치마크에서 모델을 쉽게 평가할 수 있습니다. 자세한 정보는 아래 링크를 방문하세요:

📄 Paper: https://arxiv.org/abs/2508.03523
🖥️ GitHub: https://github.com/filbench/filbench-eval

저자들은 Cohere Labs 가 Aya 모델 시리즈를 실행하기 위해 Cohere Research Grant 를 통해 크레딧을 제공해 주신 점, 그리고 Together AI 가 여러 오픈 모델을 실행하기 위해 추가 컴퓨팅 크레딧을 제공해 주신 점을 감사드립니다. 또한 이 블로그 포스트를 발행하는 데 도움을 준 Hugging Face 팀, 특히 OpenEvals 팀 (Clémentine Fourrier 와 Nathan Habib) 과 Daniel van Strien 을 인정합니다.

FilBench 에서 평가하신다면, 저자들의 작업을 인용해 주세요:

@article{filbench,
title={Fil{B}ench: {C}an {LLM}s {U}nderstand and {G}enerate {F}ilipino?},
author={Miranda, Lester James V and Aco, Elyanah and Manuel, Conner and Cruz, Jan Christian Blaise and Imperial, Joseph Marvin},
...

이 번역본은 원문의 정보량을 100% 보존하며, 전문용어는 영문 병기하고 있습니다. 원문 구조를 그대로 유지했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

🇵🇭 FilBench - LLM 이 타갈로그 (Tagalog), 필리핀어 (Filipino) 및 세부아노 (Cebuano) 를 이해하고 생성할

요약

핵심 포인트

Finding #1: Although region-specific LLMs still lag behind GPT-4, collecting data to train these models is still a promising direction

댓글