arXiv논문2026. 04. 29. 21:35

삼원 가중치 양자화 (예: BitNet b1.58) 는 대형 언어 모델 (LLM) 추론 시 메모리 대역폭 병목 현상을 완화할 유망한 경로를 제시

요약

본 연구는 대형 언어 모델(LLM) 추론 시 메모리 대역폭 병목 현상을 완화하는 삼원 가중치 양자화(Ternary Weight Quantization, 예: BitNet b1.58)를 위한 새로운 하드웨어 아키텍처 설계를 제안합니다. 기존 방식의 비효율적인 디양자화 문제를 해결하기 위해 룩업 테이블(LUT) 기반 가속기 설계 공간을 형식화하고 오픈소스 생성기를 제공했습니다. 이 프레임워크는 전체 아키텍처 공간 탐색을 가능하게 하여, 다양한 설계를 체계적으로 비교 평가할 수 있는 공통 기반을 마련하며, 기존 대비 상당한 면적 감소 및 성능 향상을 입증합니다.

핵심 포인트

삼원 가중치 양자화(Ternary Weight Quantization)는 LLM 추론의 메모리 대역폭 병목 현상 완화에 효과적인 방법이다.
기존 하드웨어 설계의 비효율성을 극복하기 위해 룩업 테이블(LUT) 기반 아키텍처를 제안하고, 이를 오픈소스 생성기로 구현했다.
제시된 프레임워크는 전체 아키텍처 공간을 탐색하여 체계적이고 공정한 비교 평가가 가능하게 한다.
최적화된 LUT 기반 설계는 기존 곱셈기 기반 베이스라인 대비 2.2배의 면적 감소를 달성하며, 추가적인 최적화를 통해 성능 개선도 가능하다.

삼원 가중치 양자화 (예: BitNet b1.58) 는 대형 언어 모델 (LLM) 추론 시 메모리 대역폭 병목 현상을 완화할 유망한 경로를 제시합니다. 그러나 기존 컴퓨팅 플랫폼은 삼원 가중치 산술에 대한 네이티브 지원을 갖추지 못해 비효율적인 디양자화 (dequantization) 에 의존하는 경우가 많습니다. 룩업 테이블 (LUT) 기반 하드웨어 아키텍처는 곱셈을 조건부 덧셈으로 대체함으로써 효과적인 대안을 제공하지만, 그 설계 공간은 아직 광범위하게 탐구되지 않았습니다. 기존 설계들은 휴리스틱한 파라미터 선택에 의존하여 아키텍처 간 트레이드오프에 대한 체계적인 이해가 부족합니다. 본 연구는 삼원 LUT 기반 가속기의 설계 공간을 형식화하고, TSMC 16nm 공정에 맞춘 합성 (synthesis) 결과와 검증된 분석 비용 모델을 갖춘 오픈소스 하드웨어 생성기를 제시하여 이 격차를 해소합니다. 전체 아키텍처 공간을 탐색함으로써 본 프레임워크는 신속한 설계 공간 탐색을 가능하게 할 뿐만 아니라, 기존에 출판된 가속기들 간 일관성 없는 인스턴테이션으로 인해 방해받던 공정한 교차 설계 평가를 위한 공통 기반을 마련합니다. 이 프레임워크를 활용하여 우리는 최근 문헌의 여러 가정과 설계 선택을 도전합니다. 우리는 LUT 기반 재사용이 고비용 산술 (예: FP16) 에서 상당한 성능 향상을 가져오지만, 작은 정수 타입에서는 그 효과가 감소함을 보여줍니다. 또한 코어 크기를 최대화하는 것이 타일링 (tiled) 접근법 대비 일관되게 면적 밀도를 향상시킨다는 점을 입증합니다. 우리의 최적화된 설계는 곱셈기 기반 베이스라인 대비 2.2 배의 면적 감소를 달성합니다. 더 나아가, 최첨단 구현을 본 모델과 벤치마크하여 비최적 파라미터를 보정함으로써 최대 1.2 배의 면적 개선을 이끌어낼 수 있음을 밝힙니다.

AI 자동 생성 콘텐츠

원문 바로가기

삼원 가중치 양자화 (예: BitNet b1.58) 는 대형 언어 모델 (LLM) 추론 시 메모리 대역폭 병목 현상을 완화할 유망한 경로를 제시

요약

핵심 포인트

댓글