HRM-Text: 스케일링을 넘어선 효율적인 사전 학습 (Efficient Pretraining Beyond Scaling)

현재 대규모 언어 모델 (LLM)의 사전 학습 (Pretraining) 패러다임은 막대한 연산량 (Compute)과 인터넷 규모의 원시 텍스트 (Raw text)에 의존하고 있으며, 이는 기초 연구에 상당한 장벽을 형성하고 있습니다. 이와 대조적으로, 생물학적 시스템은 전두두정엽 루프 (Frontoparietal loop)의 기능적 조직화와 같은 다중 시간 척도 처리 (Multi-timescale processing)를 통해 매우 높은 샘플 효율적 학습 (Sample-efficient learning)을 보여줍니다. 이러한 점에서 영감을 얻어, 우리는 표준 Transformer를 대신하여 연산을 느리게 진화하는 전략 계층 (Strategic layer)과 빠르게 진화하는 실행 계층 (Execution layer)으로 분리하는 계층적 순환 모델 (Hierarchical Recurrent Model, HRM)을 도입한 HRM-Text를 제안합니다. 언어 모델링을 위한 이러한 깊은 순환 (Deep recurrence)을 안정화하기 위해, 우리는 MagicNorm과 warmup deep credit assignment를 도입합니다. 나아가, 표준적인 원시 텍스트 사전 학습 대신, 작업 완료 목적 함수 (Task-completion objective)와 PrefixLM 마스킹 (PrefixLM masking)을 사용하여 오직 지시어-응답 쌍 (Instruction-response pairs)으로만 학습합니다. 효율적인 사전 학습의 실증적 존재 증명으로서, 단 400억 개의 고유 토큰 (Unique tokens)과 1,500달러의 예산으로 처음부터 학습된 1B 파라미터 HRM-Text 모델은 MMLU에서 60.7%, ARC-C에서 81.9%, DROP에서 82.2%, GSM8K에서 84.5%, MATH에서 56.2%를 달성했습니다. 표준 베이스라인보다 약 100~~900배 적은 학습 토큰과 96~~432배 적은 추정 연산량을 사용했음에도 불구하고, HRM-Text는 2~7B 파라미터 규모의 오픈 모델들과 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 아키텍처 (Architecture)와 목적 함수 (Objective)를 공동 설계함으로써 연산 대비 성능 비율 (Compute-to-performance ratio)을 획기적으로 줄일 수 있으며, 이를 통해 더 넓은 연구 커뮤니티가 처음부터 시작하는 사전 학습을 접근 가능하게 만들 수 있음을 입증합니다.

Insights

HRM-Text: 스케일링을 넘어선 효율적인 사전 학습 (Efficient Pretraining Beyond Scaling)

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공