본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 21. 20:38

GoLongRL: 완전한 오픈 소스 롱 컨텍스트 (Long-context) RL 학습

요약

GoLongRL은 23K개의 다양한 RLVR 샘플을 활용하여 롱 컨텍스트 RL 학습을 지원하는 완전한 오픈 소스 프로젝트입니다. GoLongRL-30B-A3B 모델은 적은 활성화 파라미터로도 DeepSeek-R1 및 Qwen3-235B-Thinking과 대등한 성능을 입증했습니다.

핵심 포인트

  • 23K개의 다양한 RLVR 샘플을 통한 학습
  • 적은 파라미터로 고성능 모델 구현
  • DeepSeek-R1 및 Qwen3-235B와 대등한 성능
  • 데이터, 코드, 가중치 전면 공개

GoLongRL: 완전한 오픈 소스 롱 컨텍스트 (Long-context) RL 학습

9가지 역량을 아우르는 23K개의 다양한 RLVR 샘플로 학습합니다. GoLongRL-30B-A3B는 더 적은 활성화 파라미터 (Activated parameters)로 DeepSeek-R1-0528 및 Qwen3-235B-Thinking과 대등한 성능을 보여줍니다. 모든 데이터, 코드, 가중치 (Weights)가 공개되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0