
강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈 출시
요약
DeepReinforce가 강화학습(RL) 기반의 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈를 출시했습니다. Gemma 4와 Qwen 3.5를 기반으로 하며, 다양한 규모의 모델이 코딩 벤치마크에서 최고 수준의 성능을 기록했습니다.
핵심 포인트
- 강화학습을 통해 솔루션과 스캐폴드를 동시에 최적화
- 9B Dense부터 397B MoE까지 다양한 파라미터 규모 제공
- SWE-Bench Verified에서 397B 모델이 82.4% 달성
- 오픈소스 모델 중 코딩 벤치마크 최고 수준 성능 기록
많은 분들이 홍보하고 있는 것을 보았습니다. 9B에서 397B 파라미터 규모를 아우르며, 여러 코딩 벤치마크 (benchmarks)에서 오픈소스 모델 중 최고 수준에 도달한 강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 (agent) 모델 시리즈입니다.
DeepReinforce가 출시한 이 프로그래밍 에이전트 모델 시리즈는 Gemma 4 및 Qwen 3.5 후속 학습 (post-training)을 기반으로 하며, 9B Dense, 35B MoE, 397B MoE 세 가지 사양으로 나뉩니다.
훈련 방식이 상당히 독특합니다. 강화학습 (RL)을 사용하여 모델이 출력하는 솔루션과 솔루션을 구동하는 스캐폴드 (scaffold)를 동시에 최적화함으로써, 모델이 더 나은 탐색 경로를 찾을 수 있도록 합니다.
Terminal-Bench 2.1, SWE-Bench, NL2Repo 등 코딩 평가에서 동일 규모 대비 오픈소스 최고 성능을 기록했으며, 397B 버전은 SWE-Bench Verified에서 82.4%를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기