본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

HRM-Text: 스케일링을 넘어선 효율적인 사전 학습 (Efficient Pretraining Beyond Scaling)

요약

HRM-Text는 생물학적 시스템의 다중 시간 척도 처리 방식에서 영감을 얻어, 전략 계층과 실행 계층으로 분리된 계층적 순환 모델(HRM)을 제안합니다. 이 모델은 원시 텍스트 대신 지시어-응답 쌍만을 사용하여 학습하며, 매우 적은 연산량과 토큰으로도 기존 대규모 모델에 필적하는 성능을 달성했습니다. 이를 통해 대규모 자본 없이도 효율적인 사전 학습이 가능함을 입증했습니다.

핵심 포인트

  • 전략 계층(느린 진화)과 실행 계층(빠른 진화)으로 분리된 계층적 순환 모델(HRM) 아키텍처 도입
  • MagicNorm 및 warmup deep credit assignment를 통한 깊은 순환 구조의 안정화
  • 원시 텍스트 대신 작업 완료 목적 함수와 PrefixLM 마스킹을 활용한 지시어 기반 학습
  • 표준 베이스라인 대비 100~900배 적은 토큰과 96~432배 적은 연산량으로 높은 벤치마크 성능 달성

현재 대규모 언어 모델 (LLM)의 사전 학습 (Pretraining) 패러다임은 막대한 연산량 (Compute)과 인터넷 규모의 원시 텍스트 (Raw text)에 의존하고 있으며, 이는 기초 연구에 상당한 장벽을 형성하고 있습니다. 이와 대조적으로, 생물학적 시스템은 전두두정엽 루프 (Frontoparietal loop)의 기능적 조직화와 같은 다중 시간 척도 처리 (Multi-timescale processing)를 통해 매우 높은 샘플 효율적 학습 (Sample-efficient learning)을 보여줍니다. 이러한 점에서 영감을 얻어, 우리는 표준 Transformer를 대신하여 연산을 느리게 진화하는 전략 계층 (Strategic layer)과 빠르게 진화하는 실행 계층 (Execution layer)으로 분리하는 계층적 순환 모델 (Hierarchical Recurrent Model, HRM)을 도입한 HRM-Text를 제안합니다. 언어 모델링을 위한 이러한 깊은 순환 (Deep recurrence)을 안정화하기 위해, 우리는 MagicNorm과 warmup deep credit assignment를 도입합니다. 나아가, 표준적인 원시 텍스트 사전 학습 대신, 작업 완료 목적 함수 (Task-completion objective)와 PrefixLM 마스킹 (PrefixLM masking)을 사용하여 오직 지시어-응답 쌍 (Instruction-response pairs)으로만 학습합니다. 효율적인 사전 학습의 실증적 존재 증명으로서, 단 400억 개의 고유 토큰 (Unique tokens)과 1,500달러의 예산으로 처음부터 학습된 1B 파라미터 HRM-Text 모델은 MMLU에서 60.7%, ARC-C에서 81.9%, DROP에서 82.2%, GSM8K에서 84.5%, MATH에서 56.2%를 달성했습니다. 표준 베이스라인보다 약 100900배 적은 학습 토큰과 96432배 적은 추정 연산량을 사용했음에도 불구하고, HRM-Text는 2~7B 파라미터 규모의 오픈 모델들과 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 아키텍처 (Architecture)와 목적 함수 (Objective)를 공동 설계함으로써 연산 대비 성능 비율 (Compute-to-performance ratio)을 획기적으로 줄일 수 있으며, 이를 통해 더 넓은 연구 커뮤니티가 처음부터 시작하는 사전 학습을 접근 가능하게 만들 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0