Reddit요약2026. 05. 06. 06:57

파라미터 제약 환경에서 SSMs 의 어려움: 2500 만 파라미터 실증 결과

요약

본 기사는 제한된 파라미터와 컴퓨팅 자원(Parameter Golf) 환경에서 State Space Models (SSMs)이 Transformer 구조에 비해 가지는 구조적 어려움을 실증적으로 분석합니다. 특히, SSM의 `in_proj` 레이어가 Attention QKV보다 압축 시 더 큰 손실을 보이며, 특정 모델 크기(SP4096 vs SP8192)에서 성능 개선 방향이 일관되지 않음을 보여줍니다. 또한 Mamba-3 Triton 커널에 대한 다양한 최적화 실험을 통해 메모리 및 정밀도 관점에서의 성능 향상 기회도 탐구합니다.

핵심 포인트

제한된 파라미터 예산(Parameter Golf) 환경에서 SSM은 Transformer 대비 구조적인 불이익을 가질 수 있다.
SSM의 `in_proj` 레이어는 Attention QKV보다 압축 시 더 큰 성능 저하를 경험하며, 이는 모델 크기 제약에 직접적인 영향을 준다.
모델 아키텍처 개선(예: SP4096 vs SP8192)이 항상 일관된 성능 향상을 보장하지 않으며, 구성에 따라 방향성이 역전될 수 있다.
Mamba-3 Triton 커널 최적화는 백워드 퓨전 시 메모리 압력으로 인한 속도 저하 문제를 보여주었으나, 혼합 정밀도를 통해 비용 대비 성능 회복이 가능하다.

OpenAI 의 Parameter Golf 경쟁에서 약 3 주간의 실험 후, 시간 및 크기 제약 환경 (10 분 훈련, 16MB 아티팩트, 25M 파라미터) 에서 SSMs 가 Transformer 에 비해 구조적으로 불리함을 설명한 글이 있습니다: https://mradassaad.github.io/posts/why-ssms-struggle-in-parameter-golf/

주요 발견:

SSM in_proj 가 Attention QKV 보다 LZMA 로 압축 시 최대 3.26 배 더 나빠지며, 이는 압축된 파라미터 예산에 직접적인 부담을 줌
SP4096 에서 검증된 구조적 개선은 SP8192 에서 반대로 되며, 두 구성 모두 목표 어휘에서 방향이 역전됨

또한 Mamba-3 Triton 커널에 대한 3 가지 커널 수준의 실험도 포함됩니다: 수치적으로 정확하지만 SMEM 압력으로 인해 16% 느린 백워드 퓨전 시도, 5.5 mBPB 를 비용으로 한 torch.compile 양자화기 버그, 그리고 미소 비용으로 0.8 mBPB 를 회복한 혼합 정밀도 역학 보호.

AI 자동 생성 콘텐츠

원문 바로가기

파라미터 제약 환경에서 SSMs 의 어려움: 2500 만 파라미터 실증 결과

요약

핵심 포인트

댓글