새로운 샘플러(Sampler)와 검증기(Verifier)가 초소형 0.5B 모델의 코딩 성능을 획기적으로 향상시킴
요약
새로운 샘플러와 검증기 기술을 통해 0.5B 초소형 모델의 코딩 성능을 2~4B급 모델 수준으로 끌어올리는 연구를 소개합니다. 가중치 변경 없이도 성능 향상이 가능하지만, 백트래킹 과정에서 디코딩 속도 저하와 VRAM 요구량 증가라는 트레이드오프가 존재합니다.
핵심 포인트
- 0.5B 모델을 2~4B급 모델의 코딩 성능으로 향상 가능
- 백트랙 샘플링 도입 시 디코딩 속도 5~30% 저하 발생
- 검증기 모델 사용으로 인해 VRAM 및 연산 요구량 증가
- 검증기 훈련 비용은 사전 훈련 대비 매우 저렴함
- 검증기는 동일 도메인 내 다양한 크기의 모델에 일반화 가능
약간의 노력이 필요했지만 읽어보았습니다.
초소형 모델의 결과가 놀랍습니다. 이론적으로 이는 가중치(weights) 변경 없이도 0.5B 모델을 코딩 분야에서 2/3/4B급 모델과 대등한 수준으로 만들 수 있습니다*. 또한 대규모 모델의 경우, 환각(hallucination) 문제를 약 30-50% 정도 해결할 수 있을지도 모릅니다 (이는 추측에 기반한 수치입니다).
vLLM이나 SGLang에 도입되기를 기대하지는 마십시오. 하지만 llama.cpp는 --top-n-sigma와 같이 이를 쉽게 통합할 수 있을 것입니다*.
*이제 한 가지... 작지만... 아니, 큰 주의사항이 있습니다: 이것은 백트랙 샘플러(backtrack sampler)이기 때문에, 모델이 실수했을 경우 되돌아가서 다시 생성해야 하므로 디코딩 속도(decode speed)가 자동으로 5-30% 정도 저하됩니다... 또한 작은 검증기(verifier) 모델을 훈련시켜야 합니다... 여기서 작다는 것은 원래 모델과 거의 비슷한 크기를 의미합니다. 따라서 VRAM 요구 사항은 두 배가 되고, 메모리 대역폭(mem bandwidth)은 두 배 이상 증가하며, 연산 요구 사항(compute requirement)은 1.5-3배 범위 내에서 증가합니다. 미안하지만, 연구 자체는 여전히 멋집니다. 더 중요한 것은, 이것이 더 나은 백트랙 샘플러(이것과 같은)가 실제로 LLM의 많은 문제들을 해결할 수 있다는 증거라는 점이며, 논문 두 개 정도만 더 지나면 매우 빠른 VGB를 가질 수 있을지도 모릅니다. 혹은 AI 연구소들이 논문의 한계를 우회할 방법을 찾아내어, 모델과 함께 더 작은 검증기를 공동 훈련(co-train)할 수도 있습니다.
두 가지 작은 위안거리는 다음과 같습니다:
- 검증기 모델은 가중치 클래스(weight class)가 같거나 그보다 낮은 경우에도 일반화(generalises)됩니다. 즉, 30B 모델을 위한 검증기는 데이터의 다양성 분포(예: 도메인, 즉 수학을 학습했다면 수학에 일반화되지만, Wikipedia를 학습하지 않았다면 일반화되지 않음)가 동일하다면 모든 30B 모델 또는 그 이하의 모델에서 작동할 것입니다.
- 검증기를 훈련하는 비용은 전체 사전 훈련(pre-training)에 비해 거의 들지 않습니다. 기존 모델을 가져와서 특수한 훈련 데이터(이미 존재하는 PMK 데이터와 같은)를 사용하여 사전 훈련 토큰 크기의 약 0.01%에 해당하는 수준으로 훈련하기만 하면 됩니다.
제출자: /u/Dany0
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기