HRM 1B

HRM 1B 베이스 모델 (Instruct 모델 아님).

저자들이 자신들의 Github(https://github.com/sapientinc/HRM-Text)에 학습 코드를 공개했으며, 논문(https://arxiv.org/pdf/2605.20613)에서 몇 가지 놀라운 주장을 하고 있습니다:

"표준 베이스라인(standard baselines)보다 약 100~~900배 적은 학습 토큰(training tokens)과 96~~432배 적은 추정 연산량(estimated compute)을 사용했음에도 불구하고, HRM-Text는 2~7B 파라미터 규모의 오픈 모델들과 경쟁할 만한 성능을 보여줍니다."
1B 모델은 16대의 H100(2개 노드)을 사용하여 약 46시간 동안 약 $1472의 비용으로 학습할 수 있습니다.

빠르게 살펴보면, 학습은 사전 학습(pretraining)과 지시어 튜닝(instruction tuning)의 결합으로 보이며, 따라서 모델이 챗봇(chatbot)과 유사하게 작동하도록 프롬프트(prompt)를 줄 수 있습니다.

SFT(Supervised Fine-Tuning)와 RL(Reinforcement Learning, 강화학습)을 거친 후 모델이 어떻게 작동할지 보는 것이 매우 흥미로울 것이라고 생각합니다. 솔직히 말해서, 이 특정 아키텍처(architecture)의 한계가 무엇인지 잘 이해가 가지 않습니다.

Insights

HRM 1B

요약

핵심 포인트

댓글

BrassCoders가 잡아낼 수 없는 공격: 프롬프트 인젝션 (Prompt Injection)

영국 CFO들, 비용 통제를 대졸 신입 채용 축소의 주요 원인으로 지목

밀레니얼 세대를 위한 401(k) 저축 기준: 당신의 은퇴 자금은 계획대로 진행되고 있습니까?

Take-Two Interactive의 2027 회계연도 1분기 실적 발표 전망

BrassCoders가 잡아낼 수 없는 공격: 프롬프트 인젝션 (Prompt Injection)

영국 CFO들, 비용 통제를 대졸 신입 채용 축소의 주요 원인으로 지목

밀레니얼 세대를 위한 401(k) 저축 기준: 당신의 은퇴 자금은 계획대로 진행되고 있습니까?

Take-Two Interactive의 2027 회계연도 1분기 실적 발표 전망