ScaleBox: 대규모 언어 모델에 대한 고신뢰도 및 확장 가능한 코드 검증 활성화
요약
ScaleBox는 대규모 언어 모델(LLM)의 코딩 능력을 검증하기 위한 고신뢰도 및 확장 가능한 시스템입니다. 기존 코드 샌드박스 시스템이 높은 동시성 워크로드에서 정확성과 효율성을 제공하지 못하는 한계를 극복했습니다. ScaleBox는 자동화된 특수 판정 생성, 세분화된 병렬 실행, 다중 노드 조정 기능을 도입하여 LLM의 코드 검증 정확도와 처리량을 크게 향상시키며, RL 기반 학습에도 효과적임을 입증했습니다.
핵심 포인트
- ScaleBox는 대규모 언어 모델(LLM)의 코딩 능력 평가를 위한 차세대 인프라입니다.
- 기존 코드 샌드박스의 고동시성 워크로드 처리 한계를 해결하여 정확성과 효율성을 높였습니다.
- 자동화된 특수 판정 생성, 세분화된 병렬 실행, 구성 기반 평가 스위트 등 핵심 기능을 제공합니다.
- RLVR(Reinforcement Learning from Verifiable Rewards) 실험을 통해 학습 안정성 및 LiveCodeBench 성능에서 기존 방식을 능가함을 입증했습니다.
코드 샌드박스는 대규모 언어 모델의 코딩 능력을 발전시키는 데 중요한 인프라로 부상하여, 강화학습 (RL) 학습과 평가 모두에 대해 검증 가능한 피드백을 제공합니다. 그러나 기존 시스템은 고 동시성 워크로드 하에서 정확한 검증과 효율성을 제공하지 못합니다. 우리는 이러한 한계를 대규모 코드 훈련에서 해결하기 위해 고안된 고신뢰도 및 확장 가능한 시스템인 ScaleBox 를 소개합니다. ScaleBox 는 자동화된 특수 판정 (special-judge) 생성 및 관리, 테스트 케이스 간의 세분화된 병렬 실행과 원활한 다중 노드 조정, 재현 가능한 벤치마킹을 위한 구성 기반 평가スイ트를 도입합니다. 일련의 실험은 ScaleBox 가 코드 검증 정확도와 효율성을 크게 향상시킨다는 것을 보여줍니다. 우리의 추가 RLVR (Reinforcement Learning from Verifiable Rewards) 실험은 ScaleBox 가 LiveCodeBench 성능과 학습 안정성 모두를 현저히 개선하며, 휴리스틱 매칭 기반선을 압도적으로 능가함을 입증합니다. 신뢰할 수 있고 고 처리량의 인프라를 제공함으로써 ScaleBox 는 대규모 코드 훈련 분야에서 더 효과적인 연구 및 개발을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기