HuggingFace헤드라인2026. 05. 07. 17:11

Falcon-H1: 하이브리드 헤드 언어 모델 가족이 효율성과 성능을 재정의함

요약

Falcon-H1은 0.5B부터 34B까지 다양한 규모의 오픈소스 언어 모델 가족으로, 기존 트랜스포머 기반 어텐션 메커니즘과 State Space Model (SSM)을 결합한 하이브리드 아키텍처를 채택했습니다. 이 혁신적인 설계는 빠른 추론 속도와 낮은 메모리 사용량을 유지하면서 최상위 성능을 달성할 수 있게 합니다. 모델은 에지 디바이스부터 대규모 배포까지 활용 가능한 광범위한 스케일과 튜닝 버전을 제공하며, 최대 256K 컨텍스트 길이 지원, 다국어 능력, 그리고 STEM 분야에서의 강력한 성능을 자랑합니다.

핵심 포인트

하이브리드 아키텍처 (Attention + SSM)를 통해 효율성과 성능을 동시에 극대화했습니다.
0.5B부터 34B까지 다양한 크기 스케일과 Base/Instruct 버전을 제공하여 범용성을 확보했습니다.
최대 256K 컨텍스트 길이를 지원하여 장문 처리 및 복잡한 추론에 강점을 가집니다.
컴팩트 모델(예: 0.5B)이 대형 모델(7B 이상)과 동등하거나 그 이상의 성능을 보여 저자원 환경에 최적화되었습니다.
18개 언어를 원어로 지원하며, STEM 데이터 학습으로 과학/수학 도메인에서 뛰어난 능력을 보입니다.

또한 공식 블로그를 확인하세요.

오늘 우리는 Falcon-H1 시리즈를 소개합니다. 이는 파라미터가 0.5B 에서 34B 까지 범위를 가진 6 개의 오픈소스 모델로, 각각 기본 (base) 과 지시 (instruct) 튜닝 변형이 모두 제공됩니다. 이 모델들의 핵심은 고전적인 Transformer 기반 attention 메커니즘과 State Space Model (SSM), 즉 우수한 장기 컨텍스트 메모리와 계산 효율성을 가진 것을 결합한 하이브리드 아키텍처에 있습니다. 이러한 아키텍처 혁신은 또한 훈련 동역학과 데이터 활용의 근본적 발전으로 강화되어, Falcon-H1 모델이 모든 커버리지 크기 계층에서 최상위 Transformer 기반 모델과 경쟁할 수 있는 무결손 성능을 제공합니다.

이번 릴리스에서는 0.5B, 1.5B, 1.5B-Deep, 3B, 7B, 그리고 34B 와 그 instruct 버전의 6 개의 오픈 웨이트 모델을 특징으로 합니다. 모든 오픈소스 모델은 Apache 2.0 기반의 허용적 라이선스를 따릅니다.

모델 크기	기본 모델	지시 모델
0.5B	🤗 Falcon-H1-0.5B-Base	🤗 Falcon-H1-0.5B-Instruct
1.5B	🤗 Falcon-H1-1.5B-Base	🤗 Falcon-H1-1.5B-Instruct
1.5B-Deep	🤗 Falcon-H1-1.5B-Deep-Base	🤗 Falcon-H1-1.5B-Deep-Instruct
3B	🤗 Falcon-H1-3B-Base	🤗 Falcon-H1-3B-Instruct
7B	🤗 Falcon-H1-7B-Base	🤗 Falcon-H1-7B-Instruct
34B	🤗 Falcon-H1-34B-Base	🤗 Falcon-H1-34B-Instruct

하이브리드 아키텍처 (Attention + SSM): 우리는 하이브리드 믹서 블록 내에서 attention 과 Mamba-2 헤드를 병렬로 결합합니다. 중요하게, attention 과 mamba 헤드의 양은 독립적으로 조정될 수 있어 최적의 attention/SSM 비율을 허용합니다. 이러한 하이브리드 설계는빠른 추론,낮은 메모리 사용량, 그리고과제에 대한 강력한 일반화를 가능하게 합니다.

**모델 크기의 광범위한 범위:**0.5B, 1.5B, 1.5B-deep, 3B, 7B, 그리고 34B 의 6 개의 스케일로 제공되며, base와 instruction-tuned변형이 모두 포함되어, 에지 디바이스부터 대규모 배포까지 모든 용도에 적합합니다.

**다국어 지원:**18 개의 언어를 원어로 지원하며, 아랍어 (ar), 체코어 (cs), 독일어 (de), 영어 (en), 스페인어 (es), 프랑스어 (fr), 힌디어 (hi), 이탈리아어 (it), 일본어 (ja), 한국어 (ko), 네덜란드어 (nl), 폴란드어 (pl), 포르투갈어 (pt), 루마니아어 (ro), 러시아어 (ru), 스웨덴어 (sv), 우르두어 (ur), 그리고 중국어 (zh) 를 포함합니다. 다양한 언어 데이터셋으로 훈련된 다국어 토크나이저 덕분에 100+ 언어까지 확장 가능합니다.

**컴팩트 모델, 큰 성능:**Falcon-H1-0.5B 는 2024 년의 일반적인 7B 모델과 동등한 성능을 제공하며, Falcon-H1-1.5B-Deep 는 현재 최상위의 많은 7B–10B 모델과 경쟁합니다. 각 Falcon-H1 모델은 최소 두 배 크기의 모델의 성능과 맞거나 초과하도록 설계되어, 능력에 무결손성을 유지하면서 저자원 및 에지 배포에 이상적입니다.

**256K 컨텍스트 지원:**Falcon-H1 모델은 최대 256K 컨텍스트 길이를 지원하여, 긴 문서 처리, 다중 턴 대화, 그리고 장기 범위 추론과 같은 응용 프로그램을 가능하게 합니다.

**탁월한 STEM 능력:**Falcon-H1 모델은 훈련 과정에서 고품질 STEM 데이터에 대한 초점을 통해 수학 및 과학 도메인에서 강력한 성능을 제공합니다.

**강력한 훈련 전략:**고효율 데이터 전략과 맞춤형 **Maximal Update Parametrization (μP)**을 사용하여 모델 크기를 넘어선 원활하고 확장 가능한 훈련을 보장합니다.

Falcon-H1 시리즈 개발을 시작할 때 우리는 훈련 방식을 근본적으로 재고하기로 결정했습니다. LLM 개발 분야는 강력한 모델을 안정적으로 생성하는 데 많은 확립된 관행을 수렴시켰지만, 이러한 관행은 주로 고전적 트랜스포머 아키텍처에서 검증되었습니다. 순수 attention 메커니즘에서 하이브리드 attention-SSM 설계로의 전환은 상당한 아키텍처 변화를 의미하며, 이러한 표준 관행이 여전히 최적인지 불확실성이 존재합니다.

이러한 불확실성으로 인해 우리는 최종 훈련 실행을 시작하기 전에 모델 설계 및 훈련 방법론의 거의 모든 측면을 체계적으로 재검토하는 광범위한 실험 단계를 수행했습니다. 우리는 향후 기술 보고서에서 상세한 정보를 제공하겠지만, Falcon-H1 모델을 형성한 주요 통찰력을 공유하고 싶습니다.

하이브리드 attention-SSM 모델은 모델 아키텍처를 정의하는 모든 파라미터의 더 큰 구성 공간을 가집니다. 우리의 목표는 각 구성 파라미터를 탐구하여 모델 성능 및 효율성에 미치는 영향을 확인하는 것이었습니다. 그 결과, 우리는 mild efficiency cost(미세한 효율성 비용)으로 성능이 증가된 모델 구성 공간 영역을 공개했습니다. 우리는 하이브리드 모델 구성 공간을 다음 4 개의 블록으로 대략적으로 구분할 수 있습니다:

SSM 특정 파라미터. 우리의 SSM 레이어는 현대 트랜스포머 모델에서 attention과 유사하게 헤드로 구성된 mamba-2 아키텍처에 기반합니다. 문헌에서 일반적으로 사용되는 값에서 그룹 또는 헤드의 수를 벗어남이 성능을 개선하지 못하지만 효율성을 저하시킬 수 있다는 것을 발견했습니다. 반면, attention 과는 비유가 없는 SSM 특화 변수인 더 큰 메모리 크기를 사용하는 것은 성능 향상과 함께 mild efficiency cost(미세한 효율성 비용)만 제공합니다.

Attention 특정 파라미터. 우리는 표준 full attention 레이어를 사용합니다. 그러나 우리는 extremely large-scale parameter(매우 큰 규모의 파라미터) 을 rotary positional embeddings (RoPE) 에 사용함으로써 모델 성능이 크게 개선됨을 발견했습니다. 우리의 가설은, 순수 트랜스포머와 비교하여 하이브리드 모델에서는 SSM 부분에서 일부 위치 정보가 내재적으로 처리되므로 이러한 매우 큰 값이 가능해짐이라는 것입니다.

mamba 와 attention 결합. attention 과 SSM 을 하나의 모델에 결합하는 방법은 많으며, 시퀀셜 또는 병렬 접근 방식이 주요 설계 선택입니다. 우리는 위의 다이어그램에서 입증된 병렬 접근 방식을 수렴시켰습니다. 우리의 병렬 하이브리드 설계의 핵심 기능은 attention 과 SSM 헤드의 비율을 조정할 수 있다는 가능성이며, 우리는 상대적으로 작은 attention 분량이 좋은 성능에 충분함을 발견했습니다.

일반 파라미터. 우리의 실험에서는 모델 깊이가 성능에 가장 큰 영향을 미치지만 효율성 비용이 발생함을 관찰했습니다. 이는 특정 사용 사례에 의존하는 모델의 깊이를 선택하기 어려운 트레이드오프를 만듭니다. Falcon-H1-1.5B-deep 은 이러한 트레이드오프에 의해 동기화되었으며, 작은 파라미터 카운트에서 최대 성능을 요구하는 사용 시나리오를 목표로 합니다.

언어 모델의 능력은 주로 훈련 데이터에서 비롯된다는 것은 잘 알려져 있으며, 이는 Falcon-H1 시리즈에도 해당됩니다. 원본 모델에 준비된 데이터 외에도, 이 데이터를 어떻게 그리고 언제 보여줄 것인지가 매우 중요합니다. 이러한 데이터 전략 중 하나는 curriculum learning (교차 학습) 으로, 간단한 데이터부터 시작하여 더 복잡한 추론이 필요한 샘플은 마지막까지 보게 하는 방식입니다. 놀랍게도, 우리는 정반대의 전략이 가장 효과적임을 발견했습니다. 훈련의 초기 단계부터 가장 복잡한 데이터, 즉 고급 수학 문제나 긴 컨텍스트 샘플을 제공하면 해당 복잡한 작업을 처리하기 위해 모델이 필수적인 기능을 더 많은 시간 동안 학습할 수 있게 된다는 것을 알았습니다.

또 다른 중요한 측면은 고품질 데이터의 부족입니다. 대규모 모델을 훈련할 때 흔히 우려되는 점은 데이터의 실제 이해가 아니라 무차별적 암기 (brute force memorization) 입니다. 이러한 암기 위험을 최소화하기 위한 일반적인 관행은 훈련 과정에서 데이터 샘플을 재사용하지 않거나, 가장 고품질의 샘플은 최대 몇 번만 사용하는 것입니다. 이 전략의 부산물로는 웹 샘플이 고품질 소스에 비해 비례없이 큰 양을 차지하여 데이터 혼합이 지배적이게 됩니다. 우리는 암기 효과가 다소 과대평가되었을 수 있으며, 모델의 memorization window (암기 창) 을 신중하게 추정하면 일반화 능력에 해를 입히지 않고 고품질 샘플을 더 자주 재사용할 수 있음을 발견했습니다.

전통적인 μP 는 신경망 이론에 뿌리를 두고 있지만 명확한 실용적 응용이 있는 기법입니다: 단일 베이스 모델 크기를 최적의 훈련 하이퍼파라미터로 찾으면, Mup scaling rules 을 사용하여 일반적으로 더 큰 다른 모델 크기에도 쉽게 적용할 수 있습니다. 우리는 Falcon-H1 시리즈 전체에 μP 하이퍼파라미터 전이를 적용하여 실험 시간을 크게 단축하고 6 개의 모델을 병렬로 훈련할 수 있게 했습니다.

또한, 우리는 μP 의 내부 작동 원리를 더욱 심화하여 모델 성능을 더 높였습니다. 간단히 말하면, 모델의 각 구성 요소는 자신의 강도로 훈련하고 싶어 하며, 이 강도는 구성 요소의 크기에 따라 달라집니다. μP scaling rules 는 이를 μP multipliers (μP 배수) 라고 불리는 것으로 조정하여 최적의 하이퍼파라미터 전이를 가능하게 합니다. 그러나 전통적인 μP 는 베이스 모델 크기에서 1 의 단순한 배수를 사용하며, 이는 모든 구성 요소의 강도가 베이스 크기에 이미 최적화되어 있다는 가정을 의미합니다. 우리는 이 가정을 버리고 베이스 모델 크기에서 배수를 조정했습니다. 구체적으로, 우리는 모델 파라미터를 35 개의 세분화된 그룹으로 나누어 각각의 35 개 배수를 공동 최적화를 수행했습니다.

Falcon-H1 시리즈 작업의 첫 단계 중 하나는 SSM 기반 모델에 심각한 문제가 될 것으로 알려진 스파이크 (spike) 를 처리하고 제거하는 것이었습니다. 우리가 가장 잘 작동한 해결책은 SSM 블록의 특정 위치에서 감쇠 μP 배수를 배치하는 것입니다. 부드러운 최종 모델 훈련 외에도, 스파이크 제거는 이후 실험에서 깨끗한 신호를 얻기 위해 필수적입니다.

우리는 학습 동역학의 많은 측면이 공통된 주제인 노이즈 해석 및 제어와 연결되어 있음을 관찰했습니다. 이는 학습률과 배치 크기 스케줄링, 배치 크기에 따른 학습률 스케일링, 그리고 파라미터 규격의 동작을 포함합니다. 특히, 우리는 파라미터 규격이 데이터에 모델링하는 것보다 훈련 하이퍼파라미터에 의해 주로 결정됨을 발견했습니다. 이를 반영하여, 파라미터 규격을 주로 제어하는 하이퍼파라미터인 무게 감쇠 (weight decay) 를 훈련 스케줄 및 μP 곱셈자 모두에 포함시켰습니다.

현재 Falcon-H1 모델은 추론 특화 미세 조정 없이 훈련되었으나, 이미 강력한 일반 명령어 수행 능력을 보여줍니다. 이를 강조하기 위해, 우리는 Qwen3-32B (비사고 모드), Qwen2.5-72B, Qwen2.5-32B, Gemma3-27B, Llama-4-Scout-17B-16E (109B) 및 LLaMA3.3-70B 와 같은 유사하거나 더 큰 규모의 상위 성능 Transformer 모델들과 Falcon-H1-34B-Instruct 의 상세 비교를 제시합니다. 전체 평가 설정 및 방법론은 Falcon-H1 GitHub 페이지를 참조해주세요.

Falcon-H1 시리즈의 두드러진 특징 중 하나는 컴팩트 모델의 강력한 성능입니다. 아래에서는 1.5B 규모의 instruct 모델을 비교합니다. Falcon-H1-1.5B-Deep-Instruct 은 해당 클래스의 선도적인 모델들, 예를 들어 Qwen3-1.7B-Instruct 을 명확히 능가합니다. 더욱 주목할 만한 것은, 많은 7B 모델과 동등하거나 더 잘 수행하며, 이는 Falcon3-7B-Instruct 과 Qwen2.5-7B-Instruct 을 포함합니다.

🔎

참고: Falcon-H1-1.5B-Deep 와 Falcon-H1-1.5B 는 동일한 설정으로 훈련되었습니다. 유일한 차이는 구조적 깊이 및 폭에 있습니다.

Falcon-H1 성능을 언어별 전반적으로 보여주기 위해, 우리는 30B 규모의 모델과 선택된 언어 세트 (아랍어, 독일어, 스페인어, 프랑스어, 힌디어, 이탈리아어, 네덜란드어, 포르투갈어, 루마니아어, 러시아어, 스웨덴어) 에 대한 Hellaswag 및 MMLU 점수의 평균치를 제공합니다. 또한 다른 지원 언어에서도 동등한 성능을 보여줍니다.

Falcon-H1 의 두드러진 특징 중 하나는 긴 컨텍스트 입력 (long-context inputs) 을 처리할 수 있는 능력이며, 이는 메모리 효율성 및 계산 비용 측면에서 상태 공간 모델 (SSMs) 이 큰 장점을 제공하는 분야입니다.

이러한 능력을 입증하기 위해, 우리는 Falcon-H1-34B-Instruct 과 Qwen2.5-72B-Instruct 을 일련의 긴 컨텍스트 벤치마크와 비교 평가했습니다. 우리는 Helmet 벤치마크 세트에서 추출된 세 가지 핵심 작업 카테고리에 집중했습니다 - 검색 강화 생성 (RAG): Natural Questions, TriviaQA, PopQA, HotpotQA; 회상 작업: JSON KV, RULER MK Needle, RULER MK UUID, RULER MV; 긴 문서 QA 작업: ∞BENCH QA, ∞BENCH MC. 이러한 평가는 Falcon-H1 이 더 긴 시퀀스로 확장하면서도 높은 성능 및 효율성을 유지할 수 있는 능력을 강조합니다.

또한, 우리는 23 개의 벤치마크를 통해 다양한 도메인 및 모델 규모의 상위 Transformer 기반 모델들과 함께 Falcon-H1 시리즈의 포괄적인 평가를 수행했습니다. 아래에서 상호작용 결과를 탐색할 수 있습니다 - 사용 사례에 가장 관련성이 높은 벤치마크를 선택하여 해당 집계 성능 점수를 확인하세요 (아래는 공식 블로그포스트의 상호작용 플롯 화면샷입니다).

우리는 동일한 규모 또는 더 큰 규모의 다른 선도적인 베이스 모델들과 Falcon-H1-34B-Base 의 상세 비교를 제공합니다. Qwen2.5-72B, Qwen2.5-32B, Llama-4-Scout-17B-16E (109B) 및 Gemma3-27B 를 포함합니다.

🔎

AI 자동 생성 콘텐츠

원문 바로가기

Falcon-H1: 하이브리드 헤드 언어 모델 가족이 효율성과 성능을 재정의함

요약

핵심 포인트

댓글