CHERRY: 순환적 표현 수율을 갖춘 압축된 계층적 전문가 (Compressed Hierarchical Experts with
요약
CHERRY는 연산 효율적인 언어 모델 학습을 위한 세 가지 핵심 기술을 제안합니다. 선택적 감독을 통한 토큰 효율성 향상, 순환적 회복을 이용한 모델 깊이 압축, 그리고 압축된 전문가들을 결합한 MoEE 구조를 통해 파라미터 수를 줄이면서도 높은 성능을 유지합니다.
핵심 포인트
- 선택적 정답 토큰 학습(SGT)으로 감독 효율성 4.5배 향상
- 순환 언롤링 기술을 통해 레이어 수를 획기적으로 압축 및 복원
- MoEE 구조를 활용하여 압축된 전문가 간의 성능 시너지 창출
- 한국어 파운데이션 모델 CHERRY-1.8B를 통해 기술 검증 완료
우리는 연산 효율적인 언어 모델 (Language Models)을 학습시키기 위한 세 가지 상호 보완적인 기술을 연구합니다. (1) 선택적 감독 (Selective supervision) 및 토큰당 효율성. 선택적 정답 토큰 학습 (Selective Ground Truth Token Training, SGT)은 의미론적 페이로드 (semantic payload)를 담고 있는 출력 토큰의 약 15%에 감독을 집중합니다. 위치 공유 트랜스포머 가중치 (position-shared transformer weights)에서의 양의 그래디언트 결합 (positive gradient coupling) — 즉, 보조 작업 전이 (auxiliary-task transfer)의 토큰 수준 인스턴스 — 을 통해, 나머지 85%의 비감독 토큰들도 여전히 상당히 개선되며, 이는 감독된 토큰당 4.5배의 효율성을 제공합니다 (step-100 평가 최적값에서, 전체 시퀀스 손실 감소량의 약 67%가 15%의 감독으로부터 회복됨). 우리는 그래디언트 결합 계수 $\bar{\gamma} = 0.72$가 양수일 때 비감독 토큰에 대한 이러한 개선이 보장됨을 증명하며 (정리 1), 이 효과가 자연어 구조의 특성임을 보여줍니다: 텍스트를 섞으면 이 효과는 붕괴됩니다. (2) 순환적 회복 (recurrent recovery)을 통한 깊이 압축 (Depth compression). 48개 레이어, 1B 파라미터의 트랜스포머를 인접한 레이어들을 평균화함으로써 6개 레이어 (227M)로 압축하고, 학습된 순환 언롤링 (recurrent unrolling)을 통해 복원합니다. 34개의 유효 순환 레이어를 통해 2.934의 홀드아웃 손실 (held-out loss)에 도달하며, 이는 2.926을 기록한 566M 밀집 모델 (dense model)의 측정 노이즈 범위 내에 있습니다 — 이는 파라미터를 2.5배 감소시킨 것입니다. (3) 압축된 전문가들의 융합 (Fusion of compressed experts). 여러 압축된 모델을 멀티 토큰 예측 (multi-token prediction)을 갖춘 효율적 전문가 혼합 (Mixture of Efficient Experts, MoEE)으로 조립하면, 유사한 활성 파라미터(active parameters)를 가진 개별 전문가보다 성능이 향상됩니다: 2개 전문가 MoEE는 최상의 단일 압축 모델의 손실인 2.926에 비해 2.789의 손실에 도달합니다. 우리는 모든 학습 가능한 파라미터가 자체적인 학습 실행에서 파생된 한국어 파운데이션 모델 (Korean foundation model)인 CHERRY-1.8B에서 이러한 기술들을 검증합니다. 우리는 증거의 범위(하나의 모델 제품군, 한국어 데이터, 손실 기반 지표)와 어떤 주장이 확립된 것이고 어떤 것이 전망적인지에 대해 전체적으로 명시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기