arXiv논문2026. 06. 30. 10:26

Dockerless: 코딩 에이전트를 위한 환경 불필요 프로그램 검증기

요약

Dockerless는 코딩 에이전트 학습 시 환경 설정 비용을 줄이기 위해 코드를 직접 실행하지 않고도 패치의 정확성을 검증하는 기술입니다. 에이전트 방식의 저장소 탐색을 통해 증거를 수집하며, 기존 환경 기반 검증 방식과 대등한 성능을 보여줍니다.

핵심 포인트

Docker 환경 없이 코드 패치의 정확성을 검증 가능
에이전트 방식의 저장소 탐색을 통한 증거 수집
SFT 궤적 필터 및 RL 보상으로 활용 가능
SWE-bench 등 주요 벤치마크에서 높은 해결률 달성

프로그램 검증기(Program verifiers)는 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 위한 궤적(trajectories) 선택 및 강화학습 (RL, Reinforcement Learning)을 위한 보상 제공을 포함하여, 코딩 에이전트(coding agents)를 학습시키는 데 핵심적인 역할을 합니다. 표준적인 실행 기반 검증(execution-based verification)은 Docker 이미지와 같은 저장소별 환경 내부에서 유닛 테스트를 실행해야 하므로 상당한 환경 설정 비용이 발생합니다. 우리는 생성된 코드 패치(code patches)를 실행하지 않고도 평가할 수 있는 환경 불필요 에이전트 방식의 패치 검증기인 Dockerless를 제안합니다. Dockerless는 단순히 후보 패치를 참조 모델과 매칭하는 대신, 에이전트 방식의 저장소 탐색(agentic repository exploration)을 통해 수집된 증거를 사용하여 패치의 정확성을 판단합니다. 검증기 평가 벤치마크에서 Dockerless는 가장 강력한 오픈 소스 검증기보다 14.3 AUC 포인트 더 높은 성능을 보였습니다. Dockerless를 SFT 궤적 필터와 RL 보상으로 모두 사용하면 완전히 환경이 필요 없는 사후 학습(post-training) 파이프라인을 구축할 수 있습니다. 그 결과 모델은 SWE-bench Verified, Multilingual, Pro에서 각각 62.0%, 50.0%, 35.2%의 해결률(resolve rate)을 달성했습니다. 이는 Qwen3.5-9B 베이스라인보다 각각 2.4, 8.7, 2.9 포인트 높으며, 환경 기반의 사후 학습 성능과 대등한 수준입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Dockerless: 코딩 에이전트를 위한 환경 불필요 프로그램 검증기

요약

핵심 포인트

댓글