CHERRY: 순환적 표현 수율을 갖춘 압축된 계층적 전문가 (Compressed Hierarchical Experts with

우리는 연산 효율적인 언어 모델 (Language Models)을 학습시키기 위한 세 가지 상호 보완적인 기술을 연구합니다. (1) 선택적 감독 (Selective supervision) 및 토큰당 효율성. 선택적 정답 토큰 학습 (Selective Ground Truth Token Training, SGT)은 의미론적 페이로드 (semantic payload)를 담고 있는 출력 토큰의 약 15%에 감독을 집중합니다. 위치 공유 트랜스포머 가중치 (position-shared transformer weights)에서의 양의 그래디언트 결합 (positive gradient coupling) — 즉, 보조 작업 전이 (auxiliary-task transfer)의 토큰 수준 인스턴스 — 을 통해, 나머지 85%의 비감독 토큰들도 여전히 상당히 개선되며, 이는 감독된 토큰당 4.5배의 효율성을 제공합니다 (step-100 평가 최적값에서, 전체 시퀀스 손실 감소량의 약 67%가 15%의 감독으로부터 회복됨). 우리는 그래디언트 결합 계수 $\bar{\gamma} = 0.72$가 양수일 때 비감독 토큰에 대한 이러한 개선이 보장됨을 증명하며 (정리 1), 이 효과가 자연어 구조의 특성임을 보여줍니다: 텍스트를 섞으면 이 효과는 붕괴됩니다. (2) 순환적 회복 (recurrent recovery)을 통한 깊이 압축 (Depth compression). 48개 레이어, 1B 파라미터의 트랜스포머를 인접한 레이어들을 평균화함으로써 6개 레이어 (227M)로 압축하고, 학습된 순환 언롤링 (recurrent unrolling)을 통해 복원합니다. 34개의 유효 순환 레이어를 통해 2.934의 홀드아웃 손실 (held-out loss)에 도달하며, 이는 2.926을 기록한 566M 밀집 모델 (dense model)의 측정 노이즈 범위 내에 있습니다 — 이는 파라미터를 2.5배 감소시킨 것입니다. (3) 압축된 전문가들의 융합 (Fusion of compressed experts). 여러 압축된 모델을 멀티 토큰 예측 (multi-token prediction)을 갖춘 효율적 전문가 혼합 (Mixture of Efficient Experts, MoEE)으로 조립하면, 유사한 활성 파라미터(active parameters)를 가진 개별 전문가보다 성능이 향상됩니다: 2개 전문가 MoEE는 최상의 단일 압축 모델의 손실인 2.926에 비해 2.789의 손실에 도달합니다. 우리는 모든 학습 가능한 파라미터가 자체적인 학습 실행에서 파생된 한국어 파운데이션 모델 (Korean foundation model)인 CHERRY-1.8B에서 이러한 기술들을 검증합니다. 우리는 증거의 범위(하나의 모델 제품군, 한국어 데이터, 손실 기반 지표)와 어떤 주장이 확립된 것이고 어떤 것이 전망적인지에 대해 전체적으로 명시합니다.

Insights

CHERRY: 순환적 표현 수율을 갖춘 압축된 계층적 전문가 (Compressed Hierarchical Experts with

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들