본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 07:55

Falcon-Edge: 강력한 범용 및 미세 조정 가능한 1.58bit 언어 모델 시리즈 소개

요약

Falcon-Edge는 BitNet 아키텍처를 기반으로 하는 강력하고 범용적이며 미세 조정 가능한 1.58bit 언어 모델 시리즈입니다. 이 모델은 단일 훈련 프로세스를 통해 양자화되지 않은 버전, 네이티브 BitNet 버전, 그리고 사전 양자화된 변형을 모두 제공하여 사용자가 특정 응용 분야에 맞게 모델을 정밀하게 커스터마이징할 수 있게 합니다. Falcon-Edge는 기존 LLM의 자원 집약적인 문제를 해결하기 위해 훈련 중 가장 낮은 정밀도인 삼원식 가중치({-1, 0, 1})를 사용하여 엔드 투 엔드 초고속 설계를 가능하게 했습니다. 이 접근 방식은 메모리 효율적이며 'matmul-free' LLM 설계로의 길을 열어주며, 유사한 크기의 다른 모델과 동등하거나 더 나은 성능을 보여줍니다.

핵심 포인트

  • BitNet 아키텍처 기반으로 1.58bit 정밀도의 고효율 언어 모델 시리즈를 제공합니다.
  • 단일 훈련 프로세스를 통해 양자화되지 않은 버전, 네이티브 BitNet 버전, 사전 양자화된 변형 등 다양한 포맷을 지원하여 유연성을 극대화했습니다.
  • 삼원식 가중치({-1, 0, 1})를 사용하여 훈련 중 낮은 정밀도를 유지함으로써 메모리 효율적이고 'matmul-free'한 설계를 가능하게 했습니다.
  • 모델은 10억 및 30억 파라미터 두 가지 크기로 제공되며, 기본 모델과 지시 명령(Instruction) 튜닝 모델을 모두 포함합니다.
  • 기존 LLM의 자원 제약 문제를 해결하고 에지 장치 배포를 용이하게 하는 혁신적인 접근 방식입니다.

이번 블로그 포스트에서는 BitNet 아키텍처를 기반으로 삼원식 (ternary) 형식으로 제공되는 강력한, 범용적이며 미세 조정 가능한 언어 모델인 Falcon-Edge 시리즈의 주요 특징과 배경을 소개합니다.

BitNet 경험을 바탕으로 Falcon-Edge 는 단일 훈련 프로세스에서 전체 범위의 출력을 제공하는 새로운 사전 학습 패러다임을 도입하고 검증했습니다. 이 포괄적인 접근 방식은 양자화되지 않은 모델, 네이티브 BitNet 모델, 그리고 미세 조정 용도에专门为 설계된 사전 양자화된 BitNet 변형을 모두 생성합니다. 이를 통해 사용자와 개발자는 해당 모델을 특정 응용 프로그램 및 요구 사항에 맞게 정확하게 맞춤 설정할 수 있습니다.

현재 두 가지 크기 (10 억 파라미터와 30 억 파라미터) 로 제공되며, 각 크기는 기본 모델과 지시 명령 튜닝 모델 모두 포함됩니다. Falcon-Edge 시리즈는 Hugging Face 전용 컬렉션에서 확인하실 수 있습니다.

대규모 언어 모델 (LLM) 은 설계상 본질적으로 크고 자원 집약적입니다. 이러한 모델을 에지 장치에 효율적으로 배포하는 수요가 증가함에 따라 모델 압축 연구가 가속화되었습니다. 최근 DeepSeek 및 Llama 4 등의 노력은 FP8 로까지 축소된 정밀도 형식으로 훈련하여 배포 확장성을 개선하는 것을 탐구했습니다. 반면, 최신 최상위 방법들은 대부분 훈련 후 양자화를 강조합니다. BitNet 은 이러한 접근 방식과 대조적으로 근본적으로 다른 패러다임을 제시합니다: 축소 정밀도 훈련은 여전히 부동 소수점 형식을 사용하고, 훈련 후 양자화는 전체 정밀도 훈련 후 가중치를 조정하는 반면, BitNet 은 훈련 중 가장 낮은 정밀도인 삼원식 가중치 ({-1, 0, 1}) 를 사용하여 엔드 투 엔드 초고속 모델 설계를 가능하게 합니다.

이러한 삼원식 가중치는 실제로 눈에 띄게 더 빠르고 놀라울 정도로 메모리 효율적인 "matmul-free" LLM 설계로 가는 길을 열었습니다. 이 혁신적 접근 방식의 주요 과제는 BitNet 모델을 사전 학습하는 것으로, 이는 일반적인 사용자들에게 계산적으로 demanding 하고 비용이 많이 듭니다.

우리의 센터에서 사전 학습 데이터 전략을 배운 것을 활용하여, 약 1.5 테라 토큰에 대한 내부 데이터 혼합으로 모델을 사전 학습했습니다. 우리는 사전 학습에 고전적인 WSD 학습률 스케줄러를 사용했습니다.

우리의 모델 (기본 버전 및 지시 명령 버전) 을 이전 Hugging Face 리더보드 v2 벤치마크에서 평가하고, 유사한 크기의 다른 모델과 비교하여 정규화된 결과를 아래에 보고합니다:

지시 명령 모델을 Microsoft 의 새로운 BitNet 모델과 비교하는 추가 결과 (리더보드 v1):

Falcon-Edge 는 리더보드 v2 작업에서 유사한 크기의 모델과 동등하거나 더 나은 성능을 보여주며, 원하는 도메인에서 강력한 BitNet 모델을 훈련할 수 있고 다른 작업에서도 경쟁력 있는 성과를 낼 수 있음을 보여줍니다.

BitNet 선형 레이어의 추론 공식을 (Python 코드 용도) 자세히 살펴보면:

def activation_norm_quant(x):
scale = 127.0 / x.abs().max(dim=-1, keepdim=True).values.clamp_(min=1e-5)
y = (x * scale).round().clamp_(-128, 127)
...

정규화 활성화 함수 activation_norm_quant 는 활성화를 int8 형식으로 양자화한 후, x_scale 로 나누어 반 정밀도로 다시 계산합니다. 모델이 가짜 8 비트 활성화 양자화로 훈련되었으므로, 이를 근사할 수 있다고 주장합니다:

x_quant, x_scale = activation_norm_quant(x)
x ~= (x_quant / x_scale)

따라서, 양자화 후 모델에 대한 양자화를 수행하는 대신, 양자화된 가중치 뒤에 스케일을 주입하면 비-BitNet 버전의 모델에 대한 충분히 좋은 "근사" 를 얻을 수 있습니다:

def _weight_quant(w):
scale = 1.0 / w.abs().mean().clamp_(min=1e-05)
u = (w * scale).round().clamp_(-1, 1)
...

우리는 bfloat16 변형의 1B 및 3B 기본 모델을 end-to-end 평가로 확인했습니다. 결과는 다음과 같습니다:

bfloat16
모델은 from_pretrained
함수에 revision="bfloat16"
을 전달하여 Hugging Face transformers 를 통해 직접 로드할 수 있습니다:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer
...

우리의 지식에 따르면, Microsoft 의 최신 릴리스를 제외하고 BitNet 의 이전 릴리스들은 최종 양자화 모델을 출시하는 데만 초점을 맞추어 사용 가능하게 만듭니다. inference 에만 사용할 수 있습니다. Microsoft 의 릴리스와 마찬가지로, 우리는 BitNet 모델의 연구 및 적용 접근성을 확장하기 위해 양자화되지 않은 가중치를 출시합니다. 이를 통해 사용자는 목표 도메인에서 fine-tuning 을 수행하거나 nn.Linear
레이어를 BitnetLinear
레이어로 교체하고 양자화된 모델을 BitNet 형식으로 post-training 으로 양자화하는 경우에만 BitNet 체크포인트의 continuous pre-training 을 수행할 수 있습니다. 가중치가 양자화되지 않은 가중치에 해당하므로, nn.Linear
레이어를 BitnetLinear
레이어로 교체하지 않고 텍스트 생성을 수행하면 garish output 이 발생합니다.

양자화되지 않은 가중치는 Hugging Face 의 transformers 라이브러리를 통해 revision
아르그먼트를 prequantized
로 지정하여 다운로드할 수 있습니다:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "tiiuae/Falcon-E-1B-Base"
...

이를 통해 커뮤니티의 첫 번째 강력한 1-bit fine-tune 에 대한 생태계를 조성하는 데 도움이 됩니다. 우리는 onebitllms
라는 Python 패키지에서 양자화되지 않은 가중치에 fine-tuning 을 수행하기 위해 필요한 모든 유틸리티 방법을 패키징하여 커뮤니티에게 제공하며, 다음 섹션에서 다루겠습니다.

이번 릴리스에서는 onebitllms

  • 가장 강력한 1-bit fine-tune 에 대한 생태계를 조성하는 데 도움이 되는 가벼운 Python 패키지입니다. 좋아하는 LLM fine-tuning 도구에 플러그인으로 연결하여 양자화되지 않은 BitNet 모델을 fine-tuning 할 수 있습니다. 작성 시점에서 onebitllms
    은 다음과 같은 주요 기능을 노출합니다:

  • prequantized 모델 체크포인트를 BitNet training 형식으로 변환하여 가장 좋아하는 LLM fine-tuning 프레임워크에 전달할 수 있는 유틸리티 방법. 우리는 현재 Hugging Face 의 trl
    라이브러리와 함께 라이브러리를 테스트했습니다.

  • 양자화되지 않은 가중치를 BitNet 형식 및 일반적인
    bfloat16
    형식으로 양자화하는 유틸리티 방법.

  • 더 세밀한 제어: Bare
    BitnetLinear
    및 triton 커널을 injectable 및 사용 가능한 pre-training 프레임워크에 사용할 수 있습니다.

현재 이 프레임워크를 통해 full-finetuning 만 지원되며, 이번 릴리스에서는 모델 크기가 상대적으로 작아 BitNet 모델을 위한 Parameter-Efficient Fine-tuning (PEFT) 방법은 upcoming BitNet 모델의 흥미롭고 영향력 있는 open question 입니다.

시작하려면 pip
을 통해 직접 또는 소스로부터 패키지를 설치하고 소스 코드 내부의 examples/
폴더를 확인하세요.

이 패키지를 통해 ternary format LLMs(삼진형 포맷 대형 언어 모델) 연구 개발을 가속화하고, Falcon-Edge 및 기타 미래의 강력한 BitNet 모델을 커뮤니티가 개발하는 많은 파생물을 기대합니다.

이번 릴리스는 다양한 흥미로운 방향을 여는데 도움이 될 것이라고 믿습니다. 가능한 모든 후속 방향 중 현재 우리는 다음 열린 질문들이 BitNet 모델을 가까운 미래에 훨씬 더 큰 영향력을 가질 것이라고 생각합니다:

BitNet 아키텍처를 위한 더 강력한 GPU 추론 커널 작성: bitnet.cpp의 핵심 아이디어를 활용하여, 이번 릴리스가 연구 커뮤니티를 설득하여 GPU 에서 더 빠른 추론을 위해 강력한 BitNet 추론 커널 개발에 집중하도록 할 것입니다. 이를 통해 GPU 의 네이티브 모델보다 더 빠르게 추론할 수 있습니다.
BitNet 미세 조정 (fine-tuning) 을 위한 PEFT 방법 지원: 이는 여전히 탐구되지 않은 연구 질문으로, BitNet 모델에 대해 새로운 가능성을 열 수 있습니다.
Bitnet 체크포인트의 보편성에 대한 더 엄격한 조사: 우리는 단순히 가중치 스케일을 주입하면 descent(non-Bitnet) 체크포인트를 갖게 된다는 것을 관찰하지만, Bitnet 체크포인트와 bfloat16 대비 성능 저하를 최소화하는 데 대해 더 많은 연구가 수행될 수 있다고 믿습니다. 이를 통해 완전히 성능 저하 없이 사용할 수 있습니다.
멀티모달 BitNet 모델: 우리는 이 BitNet 기초 모델과 onebitllms 패키지가 첫 번째 멀티모달 BitNet VLM(비전 언어 모델) 등을 만드는 데 기초 작업으로 사용될 것이라고 기대합니다.
더 최적화된 BitNet 학습 커널: 커널을 작성하기 위해, 우리는 먼저 전역 최대값을 계산한 후 이를 블록 단위로 정규화를 위해 사용하는 두 단계 접근법을 선택했습니다. 이 접근법은 더 효율적인 커널을 작성하는 데 수정할 수 있습니다. 우리의 테스트에서, 비-Bitnet 사전 학습과 BitNet 사전 학습 사이의 오버헤드는 약 20% 로 추정됩니다. 우리는 곧 BitNet 의 학습에 의해 도입된 오버헤드에 대한 더 광범위한 숫자를 발표할 예정입니다.

이 연구가 귀하의 연구 및 작업에 유용하다고 생각하신다면, 우리의 작업을 인용하시오하고, 또한 BitNet 모델 뒤에 있는 모든 기초 작업을 인용해 주시기를 바랍니다:

@misc{tiionebitllms,
title = {Falcon-E, a series of powerful, universal and fine-tunable 1.58bit language models.},
author = {Falcon-LLM Team},
...

더 많은 참조

@misc{ma2025bitnetb1582b4ttechnical,
title={BitNet b1.58 2B4T Technical Report},
author={Shuming Ma and Hongyu Wang and Shaohan Huang and Xingxing Zhang and Ying Hu and Ting Song and Yan Xia and Furu Wei},
...
@misc{,
title={1.58-Bit LLM: A New Era of Extreme Quantization},
author={Mohamed Mekkouri and Marc Sun and Leandro von Werra and Thomas Wolf},
...
@misc{ma2024era1bitllmslarge,
title={The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits},
author={Shuming Ma and Hongyu Wang and Lingxiao Ma and Lei Wang and Wenhui Wang and Shaohan Huang and Li Dong and Ruiping Wang and Jilong Xue and Furu Wei},
...
@misc{wang2023bitnetscaling1bittransformers,
title={BitNet: Scaling 1-bit Transformers for Large Language Models},
author={Hongyu Wang and Shuming Ma and Li Dong and Shaohan Huang and Huaijie Wang and Lingxiao Ma and Fan Yang and Ruiping Wang and Yi Wu and Furu Wei},
...

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0