Hierarchos: 232M 파라미터 재귀적 메모리 증강 어시스턴트 모델의 예비 연구 결과

[프로젝트 출시 / 연구 초안] 232M 파라미터 규모의 Hierarchos: 재귀적 메모리 증강 어시스턴트 모델(Recurrent Memory-Augmented Assistant Model)의 예비 연구 결과
기술 보고서: 2026년 7월 2일
프로젝트: Hierarchos / KortexHOS
저자: Makhi Burroughs / netcat420, Lost Time, 그리고 Hierarchos 프로젝트 팀

요약 (TL;DR):
우리는 232M 파라미터 규모의 실험적인 재귀적 메모리 증강 언어 모델(recurrent, memory-augmented language model)인 Hierarchos를 처음부터 구축하고 학습시켰습니다. 이 모델은 GPT-3/3.5급 모델은 아니지만, 하이브리드 비-Transformer (non-Transformer) 아키텍처(RWKV 백본, 계층적 매니저/워커 루프(hierarchical manager/worker loops), 미분 가능한 슬롯 기반 장기 메모리(differentiable slot-based LTM), 그리고 결정론적 접미사 오토마타(deterministic suffix automaton)의 결합)가 학습 과정에서 생존하고, 붕괴를 피하며, 단문 형태의 지시문 일관성(short-form instruction coherence)을 유지할 수 있음을 성공적으로 증명했습니다. 우리의 주요 돌파구 대부분은 미세한 학습/추론 일치성(train/inference parity) 불일치와 수치적 안정성(numerical stability) 버그를 해결하는 과정에서 나왔습니다.

데이터셋: netcat420/Experiment_0.1 (Alpaca 형식)
학습: RTX 6000 Blackwell (96GB) 대여 서버에서 13 에포크(epochs) 수행.

서론 및 배경
현대 LLM은 Transformer 스케일링에 크게 지배되고 있습니다. Hierarchos는 다른 경로를 탐색합니다: 재귀적 상태(recurrent state), 명시적 메모리 검색(explicit memory retrieval), 계층적 반복 계산(hierarchical iterative computation), 그리고 제한된 로컬 추론(bounded local inference)이 작은 모델을 훨씬 더 파라미터 효율적으로 만들 수 있는가?
Hierarchos는 단일 아키텍처를 직접 복제한 것이 아니라, 다음 요소들에서 영감을 받은 하이브리드 모델입니다:

RWKV 스타일의 재귀(recurrence): 전통적인 어텐션(attention) 없이 효율적인 시퀀스 처리를 위함.
Titans 스타일의 신경망 메모리(neural memory): 지속적인 테스트 시간 메모리(test-time memory)를 위함.
계층적 추론 (HRM): 상태를 반복적으로 정제하기 위한 다층 재귀 모듈 (Manager/Worker).

Architecture Overview (아키텍처 개요)
[Token Input (토큰 입력)] -> [ROSA Suffix Matcher / DeepEmbed Modulator] | v [Long-Term Memory (장기 메모리)] <-> [Top-k Associative Lookup (Top-k 연상 조회)] | v [Manager Recurrent Cell (매니저 재귀 셀)] -> (Produces Context Plan & Drift Vector (컨텍스트 계획 및 드리프트 벡터 생성)) | v [Worker Recurrent Cell (워커 재귀 셀)] -> (Refines local state / clamps drift (로컬 상태 정제 / 드리프트 클램핑)) | v [RWKV Backbone (Clamped Channel-Mix) (RWKV 백본 (클램핑된 채널 믹스))] -> [Next-Token Logits (다음 토큰 로짓)]

Key Components (주요 구성 요소):

ROSA: 정확하게 반복되는 접미사 패턴 (suffix patterns)을 기반으로 연속 토큰을 예측하는 결정론적 접미사 오토마타 (suffix-automaton) 경로.
DeepEmbed: RWKV 채널 믹싱 (channel mixing)에 영향을 미치는 토큰 특화 변조 (modulation) 경로.
LTM Subsystem (LTM 서브시스템): 학습된 느린 메모리 (slow-memory) 키/값 (keys/values)과 빠른 작업 메모리 (fast working-memory) 값을 결합함.
Manager/Worker Loop (매니저/워커 루프): 상위 수준의 매니저 (manager)가 광범위한 컨텍스트를 처리하여 목표 계획을 생성하며, 하위 수준의 워커 (worker)는 정규화된 드리프트 벡터 (drift vector)를 사용하여 토큰 로컬 상태를 정제함.

Core Engineering Lessons (The "Gotchas") (핵심 엔지니어링 교훈 ("주의 사항"))
낮은 훈련 손실 (training loss)이 일관된 채팅을 보장하지는 않습니다. 모델을 사용 가능하게 만들기 위해 우리는 몇 가지 심각한 상태 계약 (state-contract) 및 수치적 안정성 (numerical stability) 버그를 수정해야 했습니다:
Chat/Training Drift Mismatch (채팅/훈련 드리프트 불일치)

버그 (The Bug): 실시간 스트리밍 채팅 중에, 루프가 매 토큰마다 이전 드리프트 상태를 모델에 다시 피드백했습니다. 훈련 중에는 이 상태가 절단된 시간 역전파 (Truncated Backpropagation Through Time, TBPTT) 청크 경계에서 다시 시드 (reseed)됩니다.
해결책 (The Fix): 추론 (inference) 코드가 경계 제한에서만 다시 시드되도록 정렬했습니다. 이 수정 전에는 실시간 채팅 로짓 (logits)이 훈련 손실에서 급격히 벗어났으나, 수정 후에는 로짓 오차 (logit error)가 0에 가깝게 떨어졌습니다.

Supervised LTM Inner Updates Mismatch (지도 학습된 LTM 내부 업데이트 불일치)

버그 (The Bug): 훈련 중에 모델에게 레이블이 없는 실시간 추론 시에는 재현할 수 없는 지도 학습된 메모리 업데이트를 제공하는 것은 의존성 (crutch)을 만듭니다. 모델은 훈련 시에만 존재하는 숨겨진 헬퍼 신호 (helper signal)에 의존하는 법을 배우게 됩니다.
해결책 (The Fix, v0.20.4): --ltm-training-mode를 읽기 전용 (read-only)으로 구현했습니다. 훈련 시 메모리 구조는 유지하되 지도 학습된 빠른 메모리 쓰기 (fast-memory writes)를 중단하여, 추론 과정을 완벽하게 반영하도록 했습니다.

Unbounded RWKV Channel Mixing

문제점 (The Bug): 긴 실행 과정에서 ReLU-squared 채널 믹스 (channel-mix) FFN 경로의 활성화 스파이크 (activation spikes)가 노출되었으며, 이것이 DeepEmbed 변조 (modulation)를 통해 NaN 그래디언트 (NaN gradients)로 증폭되었습니다.
해결책 (The Fix): 키 클램프 (key clamps, --rwkv-channel-mix-key-clamp 12.0), DeepEmbed 클램프 (4.0)를 구현하였고, AdamW 가중치 감쇠 (weight decay)에서 DeepEmbed identity 게이트를 제외했습니다.

평가 및 스모크 테스트 (Smoke Test) 결과
클라우드 비용이 누적되는 것을 방지하기 위해, ROG Ally를 통해 CPU 프리셋에서 모델을 로컬로 벤치마킹했습니다 (--eval-limit 100). 이때 정적 채팅 (static chat)을 모방하기 위해 수동 학습 (passive learning)을 비활성화하고 작업 메모리 (working memory)를 비웠습니다.
제한된 로컬 벤치마크 지표 (Bounded Local Benchmark Metrics, --eval-limit 100)

벤치마크 지표 (Benchmark Metric)	점수 (Score)	표준 오차 (Std. Err.)
ARC Easy acc	0.3600	0.0482
ARC Easy acc_norm	0.3200	0.0469
HellaSwag acc	0.3400	0.0476
HellaSwag acc_norm	0.3700	0.0485
TruthfulQA MC1 acc	0.2200	0.0416

실제 환경 일관성 체크 (Real-world Coherence Check):

장점 (The Good): Alpaca 학습 데이터 덕분에 어시스턴트 형태를 갖추고 있으며, 짧은 지시문 프롬프트 (instruction prompts)를 잘 따릅니다. 사소하지 않은 상식 및 QA 신호는 가중치 (weights)가 붕괴되지 않았음을 증명합니다.
단점 (The Bad): 긴 컨텍스트 길이 (context lengths)에서 취약하며, 산술 및 사실 회상 (factual recall) 능력이 약합니다. 일관성 (Coherence)은 현대적인 GPT-3.5+ 시스템이 아닌 GPT-2 시대와 유사한 수준입니다.

제안된 절제 연구 (Ablation) 및 스케일링 계획
우리는 이것을 유망한 프로토타입에서 엄격한 과학적 결과로 변모시키고자 합니다. 다음 단계에는 스케일링 계층 (scaling tiers)과 격리된 구성 요소 테스트가 필요합니다.
제안된 격리 테스트 (Proposed Isolation Testing, Ablations)

LTM 없음 / 읽기 전용 LTM (No LTM / Read-Only LTM): 슬롯 메모리 (slot memory)가 정확히 어느 정도 도움이 되는지 격리하여 확인합니다.
ROSA 없음 / DeepEmbed 없음 (No ROSA / No DeepEmbed): 접미사 매칭 (suffix-matching)과 변조 (modulation)의 실제 토큰 효율성 이득을 평가합니다.
베이스라인 매칭 (Baseline Matches): 진정한 비교 아키텍처 효율성을 증명하기 위해, 정확히 동일한 토큰 예산에서 직접적인 Transformer 232M 및 RWKV 전용 232M를 실행합니다.

향후 스케일링 목표 계층 (Future Scaling Target Tiers)

계층 (Tier)	모델 크기 (Model Size)	토큰 목표 (Token Target)	목적 (Purpose)
Scout	300M–500M	20B–50B	손실 기울기 (loss slope) 및 안정성 스케일링 검증.

| Real | v1 | 1B–1.5B | 100B–300B | 소규모 동작 범위를 넘어선 아키텍처 한계 테스트. |
| Serious | 3B | 600B–1.5T | 진정으로 경쟁력 있는 로컬 오픈 소스 대안 구축. |

기초 학습 (Foundation Training)을 위한 목표 데이터 믹스 (Data Mix):
지시어 미세 조정 (Instruction SFT) 데이터로 바로 뛰어드는 대신, 확장된 실행에서는 고품질 베이스 데이터를 우선시할 것입니다:

35-50%: FineWeb / FineWeb-Edu 스타일의 정제된 웹 텍스트
20-30%: Dolma / DCLM 큐레이션 웹 데이터
8-15%: 코드 및 기술 문서
5-12%: 수학, 과학 및 학술적 증명
1-5%: 자체 제작 어시스턴트 대화형 SFT (후기 튜닝 단계에서만 독점적으로 적용)

안전하게 주장할 수 있는 것 (및 주장할 수 없는 것)
데이터에 의해 뒷받침되는 사항:

Hierarchos는 기능적이고 일관된 232M 실험적 어시스턴트 체크포인트입니다.
재귀적 시퀀스 루프 (recurrent sequence loops), 메모리 슬롯 (memory slots), 그리고 계층적 워커 (hierarchical workers)를 결합하는 것은 적절한 클램프 (clamps)가 있다면 실행 가능하며 안정적입니다.
본 연구 결과는 비 트랜스포머 (non-Transformer) 아키텍처 안정성을 위한 견고한 엔지니어링 로드맵을 제공합니다.

뒷받침되지 않는 사항 (과장하지 마세요!):

GPT-3.5 수준의 수학, 코딩 또는 논리 능력에 대한 주장은 없습니다.
동일한 파라미터 수에서 어텐션 (attention)/트랜스포머 (Transformer)의 우월성에 대한 주장은 아직 없습니다 (베이스라인 대기 중).
드리프트 민감도 (drift sensitivity)로 인해, 심하게 양자화된 (quantized) 또는 저비트 로컬 배포용으로는 아직 프로덕션 준비가 되지 않았습니다.

마치며
Hierarchos 232M는 학습/추론 상태 드리프트 (train/inference state drift)를 극복할 수 있다면, 작고 대안적인 아키텍처가 여전히 LLM 연구의 매우 결실 있는 분야임을 보여줍니다.
재귀적 신경 메모리 (recurrent neural memory) 또는 계층적 백본 (hierarchical backbones)을 연구하는 분들의 피드백을 환영합니다! 전체 코드, 스크립트 및 로그는 준비 중입니다.

참고 문헌:

Brown et al. Language Models are Few-Shot Learners. arXiv:2005.14165. https://arxiv.org/abs/2005.14165
Hoffmann et al. Training Compute-Optimal Large Language Models. arXiv:2203.15556. https://arxiv.org/abs/2203.15556
Peng et al. RWKV: Reinventing RNNs for the Transformer Era. arXiv:2305.13048. https://arxiv.org/abs/2305.13048
Behrouz et al.

Titans: 테스트 시점에 암기하는 법을 배우기 (Learning to Memorize at Test Time). arXiv:2501.00663. https://arxiv.org/abs/2501.00663
Wang et al. 계층적 추론 모델 (Hierarchical Reasoning Model). arXiv:2506.21734. https://arxiv.org/abs/2506.21734
Zellers et al. HellaSwag: 기계가 정말로 당신의 문장을 완성할 수 있을까? (Can a Machine Really Finish Your Sentence?). arXiv:1905.07830. https://arxiv.org/abs/1905.07830
Clark et al. 질의응답 (Question Answering) 문제를 해결했다고 생각하시나요? AI2 추론 챌린지인 ARC를 시도해 보세요. arXiv:1803.05457. https://arxiv.org/abs/1803.05457
Lin et al. TruthfulQA: 모델이 인간의 거짓말을 얼마나 모방하는지 측정하기. arXiv:2109.07958. https://arxiv.org/abs/2109.07958
Hugging Face. FineWeb 데이터셋 (FineWeb dataset). https://huggingface.co/datasets/HuggingFaceFW/fineweb
Hugging Face. FineWeb-Edu 데이터셋 (FineWeb-Edu dataset). https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
Allen AI. Dolma 데이터셋 (Dolma dataset). https://huggingface.co/datasets/allenai/dolma
DataComp-LM. DCLM Baseline 데이터셋 (DCLM Baseline dataset). https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

아키텍처 및 공개된 모델 가중치가 포함된 GitHub 저장소: https://github.com/necat101/Hierarchos
제출자: /u/PhysicsDisastrous462
[link] [comments]

Insights

Hierarchos: 232M 파라미터 재귀적 메모리 증강 어시스턴트 모델의 예비 연구 결과

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때