ZAYA1-74B-Preview 출시 및 AMD 기반 사전 학습 성과
요약
Zyphra가 AMD Instinct MI300X GPU와 IBM Cloud의 AMD Pensando Pollara 네트워킹을 활용하여 사전 학습한 ZAYA1-74B-Preview 모델을 공개했습니다. 이 모델은 AMD 기반의 대규모 사전 학습이 효과적임을 입증하며, Apache 2.0 라이선스로 배포됩니다.
핵심 포인트
- AMD Instinct MI300X GPU를 사용하여 엔드 투 엔드 사전 학습을 완료함
- pass@1과 pass@4 사이의 격차를 통해 사고의 다양성을 확보하고 강화학습(RL)의 잠재력을 확인
- AMD 하드웨어를 통한 대규모 사전 학습의 실행 가능성과 효과성을 입증
- Apache 2.0 라이선스로 모델 가중치 공개
모델을 비교하는 것은 어렵습니다. 특히 베이스 (Base) 모델과 완전히 사후 학습 (Post-trained)된 모델을 비교하는 것은 더욱 그렇습니다. 강화학습 (RL)을 위한 핵심 신호는 pass@k입니다. 우리는 pass@1과 pass@4 사이의 큰 격차를 통해 사고의 상당한 다양성을 유지하고 있습니다. 이 격차는 바로 강화학습 (RL)이 구축해 나갈 여유 공간 (Headroom)이며, 우리가 도달하고자 하는 목표 지점에 대한 강력한 신호입니다.
ZAYA1-8B와 마찬가지로, ZAYA1-74B-Preview는 @IBMCloud의 AMD Pensando Pollara 네트워킹과 @AMD의 Instinct MI300X GPU를 사용하여 엔드 투 엔드 (End-to-end)로 사전 학습 (Pretrained)되었습니다.
이전 연구를 바탕으로 한 ZAYA1-74B-Preview는 AMD에서 사전 학습 (Pretraining) 규모를 키우는 것이 실행 가능할 뿐만 아니라 효과적이라는 결정적인 증거입니다.
ZAYA1-74B-Preview는 Apache 2.0 라이선스 하에 공개됩니다.
블로그:
http://zyphra.com/post/zaya1-74b-preview
가중치 (Weights):
http://huggingface.co/Zyphra/ZAYA1-74B-preview
@ZyphraAI는 캘리포니아주 샌프란시스코에 본사를 둔 오픈 초지능 (Superintelligence) 연구 및 제품 기업으로, 개인과 조직이 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬 (Human-aligned) AI를 구축하는 것을 사명으로 합니다.
저희와 함께할 분들은 지원해 주세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 X @zyphraai (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기