Launch HN: Deepsilicon (YC S24) – Ternary 트랜스포머를 위한 소프트웨어 및 하드웨어
요약
대규모 언어 모델(LLM)의 추론 비용과 전력 소모 문제를 해결하기 위해 Deepsilicon은 '테르너리 트랜스포머' 기반의 혁신적인 접근 방식을 제시합니다. 이 방식은 가중치를 16비트에서 2비트로 압축하여 약 8배의 메모리 절감 효과를 가져오며, 산술 연산 강도를 낮춰 효율성을 극대화합니다. 현재 기존 하드웨어로는 최적화가 어려워 커스텀 실리콘(ASIC) 설계가 필수적입니다. Deepsilicon은 자체 개발한 커널을 통해 이미 현존하는 GPU에서도 성능 개선을 입증하며, LLM의 엣지 및 클라우드 배포 문제를 근본적으로 해결
핵심 포인트
- 테르너리 트랜스포머는 가중치를 기존 대비 최대 8배 압축(16비트 $\rightarrow$ 2비트)하여 메모리 사용량을 획기적으로 줄입니다.
- 이 모델은 산술 연산 강도를 낮춰, 테르너리 값과 INT8 값을 이용한 단순화된 점곱셈을 통해 에너지 효율성을 높였습니다.
- Deepsilicon은 자체 커스텀 커널 개발을 통해 기존 NVIDIA GPU에서도 추론 속도와 VRAM 사용량 개선을 입증하며 ASIC의 필요성을 제시합니다.
- 프레임워크(Sila)를 오픈소스로 공개하여 모델 훈련부터 배포까지 통합적인 솔루션을 제공하고 있습니다.
Launch HN: Deepsilicon (YC S24) – Ternary 트랜스포머를 위한 소프트웨어 및 하드웨어
안녕하세요, Hacker News! 저희는 deepsilicon의 Abhi와 Alex입니다. (https://deepsilicon.com) 저희는 테르너리(ternary) 트랜스포머 모델을 학습하고 추론하는 데 필요한 소프트웨어와 하드웨어를 구축하고 있습니다. 소프트웨어 영상은 여기에서 확인하실 수 있습니다:
https://www.youtube.com/watch?v=VqBn-I5D6pk.
트랜스포머 기반 모델들은 세대마다 점점 더 커지고 있으며, 이로 인해 추론(inference) 하드웨어 요구 사항이 갈수록 비싸지고 있습니다. 대규모 트랜스포머 모델을 장치(device)에서 실행하는 것은 더욱 어려워지기까지 합니다. 보통 적절한 속도로 구동하려면 수조 개의 FLOPs(Floating Point Operations)가 필요하며, 이는 너무 많은 에너지와 공간을 사용합니다.
저희의 해결책은 테르너리 트랜스포머 모델을 학습하는 것입니다. 테르너리 값을 사용하면 두 가지 장점이 있습니다. 첫 번째는 가중치(weights)를 16비트에서 2비트(또는 그 이하)로 저장할 수 있다는 점입니다. 이는 트랜스포머 모델의 모든 가중치 행렬에 대해 거의 8배의 압축률을 나타냅니다 (float16 스케일링 값과 추가 정규화(extra norm) 때문에 약간 적지만, 이는 무시할 만한 수준입니다). 두 번째 장점은 산술 강도(arithmetic intensity)가 감소한다는 것입니다. 테르너리 값과 INT8 값을 사용하여 내적(dot product)을 수행하면, 테르너리 값이 1이면 INT8을 더하고, -1이면 INT8을 빼거나, 0이면 아무것도 하지 않습니다. 이러한 산술의 변화를 활용하는 방법은 조회 테이블(look up tables)부터 비트 마스크 감소(bit mask reductions)에 이르기까지 수없이 많습니다. 테르너리 값이고 사원수(quaternary)/이진수(binary)가 아닌 이유는, 실험 결과로 볼 때 테르너리가 압축과 가중치의 (대칭적) 표현력이라는 면에서 적절한 균형점(sweet spot)을 제공하기 때문입니다.
현재 하드웨어는 극도로 낮은 비트 폭(low bit-width)의 행렬 연산(곱셈이든 아니든)에 대해 실제로 최적화되어 있지 않습니다. 저희는 CPU/GPU 모두에서 다양한 커널 구현을 시도해 보았습니다 (실질적으로 NVIDIA GPU만 사용). 저희는 심지어 자체 개발한 커널의 이론적 최대 속도에도 근접하지 못하며, 실패의 큰 원인은 기존 하드웨어 아키텍처가 우리가 원하는 연산에 최적화되어 있지 않기 때문입니다. 테르너리 LLM(Large Language Model)을 위한 맞춤형 실리콘(custom silicon)은 테르너리 LLM 전용으로 작동하는 알고리즘/회로를 구현하고 설계함으로써 추론 속도를 가속할 수 있습니다. 개선 사항을 보여주기 위해 실리콘이 필요한 대부분의 하드웨어 회사와 달리, 저희는 이미 기존 하드웨어에서 자체 커널을 사용하여 활성 VRAM 사용량과 처리량(throughput)에 대한 인상적인 낮은 경계값(lower bounds)을 보여줄 수 있습니다.
저희는 원래 Microsoft의 BitNet 논문을 읽은 후 이 작업을 시작하게 되었는데, 실망했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Chip/GPU의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기