X요약2026. 07. 02. 14:58

강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈 출시

요약

DeepReinforce가 강화학습(RL) 기반의 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈를 출시했습니다. Gemma 4와 Qwen 3.5를 기반으로 하며, 다양한 규모의 모델이 코딩 벤치마크에서 최고 수준의 성능을 기록했습니다.

핵심 포인트

강화학습을 통해 솔루션과 스캐폴드를 동시에 최적화
9B Dense부터 397B MoE까지 다양한 파라미터 규모 제공
SWE-Bench Verified에서 397B 모델이 82.4% 달성
오픈소스 모델 중 코딩 벤치마크 최고 수준 성능 기록

많은 분들이 홍보하고 있는 것을 보았습니다. 9B에서 397B 파라미터 규모를 아우르며, 여러 코딩 벤치마크 (benchmarks)에서 오픈소스 모델 중 최고 수준에 도달한 강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 (agent) 모델 시리즈입니다.

DeepReinforce가 출시한 이 프로그래밍 에이전트 모델 시리즈는 Gemma 4 및 Qwen 3.5 후속 학습 (post-training)을 기반으로 하며, 9B Dense, 35B MoE, 397B MoE 세 가지 사양으로 나뉩니다.

훈련 방식이 상당히 독특합니다. 강화학습 (RL)을 사용하여 모델이 출력하는 솔루션과 솔루션을 구동하는 스캐폴드 (scaffold)를 동시에 최적화함으로써, 모델이 더 나은 탐색 경로를 찾을 수 있도록 합니다.

Terminal-Bench 2.1, SWE-Bench, NL2Repo 등 코딩 평가에서 동일 규모 대비 오픈소스 최고 성능을 기록했으며, 397B 버전은 SWE-Bench Verified에서 82.4%를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈 출시

요약

핵심 포인트

댓글

게이팅 위기(Gating Crisis) — 토큰 손실 없이 적절한 전문가를 선택할 수 있는가?

다수결 투표(Majority voting)가 당신의 AI를 더 멍청하게 만드는 이유

SciLens: 과학적 주장(Scientific Claims)의 원자적 검증 시스템이 79% F1 달성

게이팅 위기(Gating Crisis) — 토큰 손실 없이 적절한 전문가를 선택할 수 있는가?

다수결 투표(Majority voting)가 당신의 AI를 더 멍청하게 만드는 이유

SciLens: 과학적 주장(Scientific Claims)의 원자적 검증 시스템이 79% F1 달성