【Nishika 논문 요약 제14회】 효율적인 언어 모델 HRM-Text

요약

HRM(Hierarchical Recurrent Model) 아키텍처를 활용하여 계산 효율성을 극대화한 언어 모델 HRM-Text를 소개합니다. 뇌의 다중 시간 스케일 처리 방식을 모방하여 파라미터 증가 없이 계산 깊이를 확보하며, 기존 Transformer 대비 높은 성능과 효율을 보여줍니다.

핵심 포인트

H(전략층)와 L(실행층) 모듈의 계층적 구조로 문맥 유지 및 정교화 수행
동일 가중치를 재귀적으로 사용하여 파라미터 수 증가 없이 계산 깊이 확보
오차 역전파 단계적 확장 및 지시-응답 쌍 기반 학습으로 효율성 증대
3B 규모 Transformer를 상회하는 벤치마크 성능 기록

안녕하세요. Nishika에서 AI 엔지니어로 인턴을 하고 있는 니시오입니다.

아직 참여한 지 얼마 되지 않아 모르는 점도 많지만, 분위기가 매우 좋아 즐겁게 일하고 있습니다.

이번에는 업무의 일환으로, 원래 관심 있었던 언어 모델에 관한 논문을 읽고 소개합니다.

논문

목적

LLM의 사전 학습(Pre-training)은 인터넷 규모의 생텍스트(Raw text)와 방대한 계산 자원(수조 개의 토큰, 거대한 GPU)을 전제로 하고 있어, 기초 연구의 진입 장벽이 극단적으로 높습니다. 이 계산량 대비 성능비를 극적으로 낮추어, 사전 학습을 다시 손에 닿을 수 있는 영역으로 만들고자 합니다.

전제: HRM이란

HRM(Hierarchical Recurrent Model / 계층적 순환 모델)은 뇌의 전두두정 루프(frontoparietal loop)의 다중 시간 스케일 처리에서 착안한 아키텍처입니다. 계산을 두 가지로 분리하는 것이 핵심입니다.

H 모듈(느린·전략층): 사이클을 가로질러 안정적인 의미적 문맥을 유지함
L 모듈(빠른·실행층): 국소적인 반복적 정교화(Refinement)를 반복함

실제 처리는 3회의 L 업데이트 → 1회의 H 업데이트를 2사이클 돌리는 구성입니다. 동일한 모듈을 재귀적으로 여러 번 적용하기 때문에, 파라미터 수를 늘리지 않고도 '계산의 깊이(serial depth)'만을 확보할 수 있다는 것이 특징입니다. 표준 Transformer가 층을 쌓는 것(파라미터를 늘리는 것)과 달리, HRM은 동일한 가중치를 반복 사용함으로써 깊은 계산을 실현합니다.

https://medium.com/@gedanken.thesis/the-loop-is-back-why-hrm-is-the-most-exciting-ai-architecture-in-years-7b8c4414c0b3 에서 인용

수법

본 연구는 이 HRM을 언어 모델에 적응시킨 형태입니다. 이를 위해 설계에 공을 들였습니다. 다양한 장치 중 특히 중요한 것을 설명하겠습니다.

① 오차 역전파(Backpropagation)의 개선

끝에서부터 처음까지 오차 역전파를 수행하는 것이 아니라, 처음에는 마지막 2스텝만 역전파(K=2)하고, 학습이 안정됨에 따라 점진적으로 5스텝(K=5)까지 늘립니다. 긴 기울기 경로(Gradient path)를 초기에 피하면서 계산량도 가볍게 유지할 수 있습니다.

② 학습의 개선

다음 단어 예측(Next token prediction) 등을 통한 텍스트 기반의 사전 학습을 중단하고, 지시-응답(Instruction-Response) 쌍으로만 학습합니다. 여기에 PrefixLMmask(지시는 양방향 참조 가능, 응답은 causal(자신보다 뒤를 참조하지 않음) 방식)를 조합했습니다.

결과

동일한 데이터로 학습했을 경우, 모든 벤치마크에서 3B 규모의 Transformer를 상회하는 성능을 기록했습니다.

표 1: 학습 계산량을 맞춘 HRM-text와 Transformer 모델의 비교.

왜 HRM이 이러한 효율을 낼 수 있는지 뒷받침하는 것이 첨부된 effective depth 분석입니다.

세로축 ‖Δh‖₂는 '인접한 층에서 은닉 상태(Hidden state)가 얼마나 변화했는가'를 나타냅니다. 값이 클수록 해당 층이 활발하게 변화하고 있음을 의미합니다. 세 모델을 비교하면 HRM이 상대적으로 가장 폭넓은 층을 사용하고 있음을 알 수 있습니다.

표 2: effective depth 분석

감상

사전 학습 데이터를 생텍스트에서 지시-응답 쌍으로 교체한 언어 모델이라는 발상이 새롭다고 느꼈습니다. 상당히 경량화된 모델이므로 Kaggle 등의 경진대회에서 특화하여 학습시키는 등 다양한 용도가 떠오릅니다.

마치며

Nishika 엔지니어 팀에서는 매주 열리는 'AI 요모야마 연구 정례 회의'를 비롯해, 매일 궁금한 뉴스나 논문을 가볍게 pick하여 이야기 나누고 있습니다.

단순히 이야기하는 것에 그치지 않고, Nishika의 유래인 우리 자신들 '에게만(Nishika)' 할 수 있는 것은 무엇인지, 사용자에게 제공할 수 있는 가치는 무엇인지를 고민하며 AI의 미래, 엔지니어링의 미래를 생각하고 있습니다.

이런 미래를 함께 고민하고 만들어갈 동료를 모집하고 있습니다. 관심이 있으신 분은 꼭 연락해 주세요.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기

【Nishika 논문 요약 제14회】 효율적인 언어 모델 HRM-Text

요약

핵심 포인트

논문

목적

전제: HRM이란

수법

결과

감상

마치며

Discussion

댓글